14 Δεκέμβριος 2017

Η Databricks, ρίχνει τα δίκτυά της ακόμη πιό μακρυά με την ενημέρωση της πλατφόρμας Apache Spark.

Δύο μήνες μόλις μετά την κυκλοφορία της πλατφόρμας τύπου cloud από την Apache Spark, η Databricks ανακοίνωσε μία πολύ σημαντική ενημέρωση, με πολλά νέα χαρακτηριστικά, σχεδιασμένη για να βοηθήσει τους χρήστες να διευκολύνουν την ανάπτυξη και την πρόσβαση στον έλεγχο της Spark App.

Η πλατφόρμα της Databricks είναι μία μηχανή επεξεργασίας Μεγάλων Δεδομένων που έχει βάση cloud, και προσφέρει ένα γραφικό interface για πολλούς χρήστες και βιβλιοθήκες όπως η Spark SQL και η MLlib. Η νέα ενημέρωση προσφέρει χαρακτηριστικά στα οποία περιλαμβάνονται ο έλεγχος πρόσβασης, υποστήριξη για την στατιστική γλώσσα προγραμματισμού R, έκδοση σε μορφή notebook και υποστήριξη από πολλαπλές εκδόσεις του Spark. Η νέα έκδοση ονομάζεται Databricks 2.0 και η εταιρία δηλώνει πως η νέα έκδοση καταργεί την ανάγκη ικανοποίησης μέσω λειτουργικής πολυπλοκότητας η οποία είναι απαραίτητη όταν χρησιμοποιούνται εργαλεία και συστήματα που σχετίζονται με τις παραδοσιακές λύσεις δεδομένων.

Οι ενισχύσεις ασφαλείας θα περιλαμβάνονται επίσης στα νέα χαρακτηριστικά. Η Databricks έχει παρουσιάσει ένα νέο χαρακτηριστικό το οποίο αποκαλεί Access Control, το οποίο ενισχύει την ασφάλεια και την διαχείριση της πλατφόρμας για μεγάλες ομάδες. Η εταιρία δηλώνει πως πλέον οι χρήστες θα μπορούν να παρέχουν αλλά και να περιορίζουν την πρόσβαση στους κώδικες και στα δεδομένα σε ατομική βάση.

H Databricks επίσης ανακοινώνει νέο διαδραστικό χαρακτηριστικό τύπου notebook, που έχει σχεδιαστεί για να κάνει ευκολότερο τον προγραμματισμό και την διαχείριση.  Τα notebooks αυτά έρχονται με interface πάνω στο οποίο οι προγραμματιστές μπορούν να δημιουργήσουν και να προγραμματίσουν θέσεις εργασίας Spark, στο Python, στο Scala και στο SQL. Τα Notebooks αυτά μπορούν να λειτουργούν επαναλαμβανόμενα και να δεινεργούν εργασίες παραγωγής που εκτελούνται αυτόματα, το οποίο σημαίνει ότι οι προγραμματιστές μπορούν να οργανώνουν και να εντοπίζουν την βάση του κώδικά τους μέσω εργαλείων που ελέγχουν την έκδοση αυτή, όπως το Git.

O Ali Godhsi, επικεφαλής των μηχανικών στην Databricks, δήλωσε μέσω blog post: «Οι χρήστες μας όχι μόνο γράφουν υπερβολικά περίπλοκο κώδικα στα notebooks τους, αλλά επίσης μοιράζονται ευρέως τα notebooks αυτά με έναν εύκολο τρόπο διάδοσης πληροφοριών. Το να έχουν έναν εύκολο τρόπο να σημειώσουν την πρόοδο ή να γυρίσουν γρήγορα σε μία προηγούμενη έκδοση του κώδικα, έχει πλέον γίνει ένας απαραίτητος ενισχυτής παραγωγικότητας. Ως απάντηση σε αυτήν την απαίτηση, εφαρμόσαμε στα notebooks μας την πιο δημοφιλή έκδοση συστήματος ελέγχου, το GitHub, προκειμένου να βοηθήσουμε τους χρήστες να διαχειρίζονται καλύτερα τις διαφορετικές εκδόσεις του κώδικά τους».

Η Databricks πλέον μπορεί να στηρίξει επίσης περιβάλλοντα παραγωγής με μεγαλύτερη ποικιλία, με την δυνατότητα να αναπτύσσει περισσότερες εκδόσεις του Spark στην πλατφόρμα αυτή. Αυτό σιγουρεύει το γεγονός πως οι χρήστες μπορούν να διατηρήσουν την συμβατότητα καθώς πειραματίζονται επίσης με τα πιό πρόσφατα χαρακτηριστικά.

Τέλος, η Databricks δηλώνει πως η πλατφόρμα της πλέον υποστηρίζει και την γλώσσα προγραμματισμού R, δίνοντας σε μία νέα κατηγορία χρηστών την δυνατότητα να εκμεταλλευτούν την δύναμη του Spark. Οι χρήστες μπορούν πλέον να χρησιμοποιούν την R, για να εξερευνούν τα δεδομένα εις βάθος, για παράδειγμα με απεικόνιση μέσω ενός κλικ και άμεση ανάπτυξη του κώδικα R στην παραγωγή.

Σύμφωνα με τον Ghodsi, επιτρέποντας σε επιστήμονες που δεν ασχολούνται με δεδομένα να φέρουν εις πέρας εξερευνητική ανάλυση και να γράψουν εργασίες σε R στην Databricks, η εταιρία κάνει τα δεδομένα πολύ πιό προσβάσιμα μέσω των εταιριών.

Η Databricks δήλωσε στο ZDnet πως έχει εξασφαλίσει περισσότερες από 1.700 εγγραφές από την γενική διάθεση της πλατφόρμας της πριν από 6 εβδομάδες. Αυτό περιλαμβάνει έναν αριθμό πολύ σημαντικών αναπτύξεων εταιριών, σε εταιρίες όπως η MyFitnessPal και η Edmunds.com.