Η Databricks συνεργάζεται με την Alteryx για να αποκτήσουν από κοινού την Spark για εργασίες big data

07/07/2014 | | |

Η Databricks θεωρεί πως η μηχανή ανοιχτού κώδικα Spark είναι το νέο μεγάλο όνομα στα big data – για αυτόν τον λόγο συνεργάζεται με την Alteryx για την ανταλλαγή λογισμικού.

Οι δύο startups δεδομένων που σκοπεύουν να μοιράσουν τη Spark μεταξύ περισσότερων αναλυτών δεδομένων μέσω επίσημης συνεργασίας, αποκάλυψαν οι Databricks και Alteryx στη VentureBeat. Θα είναι οι κύριοι committers της Apache Spark, της ανοιχτού κώδικα μηχανής μνήμης που συχνά αντιμετωπίζεται ως κύριος υποψήφιος για την αντικατάσταση της MapReduce, πρόσθεσαν οι εταιρίες.

Η MapReduce, αρχικά μέρος της Google, είναι το αρχικό μοντέλο προγραμματισμού για το σύστημα εργαλείων ανοιχτού κώδικα για την ανάλυση πολλών διαφορετικών ειδών δεδομένων Hadoopeco. Αλλά ενώ η MapReduce διαθέτει ισχυρή επεκτασιμότητα, αντοχή στα σφάλματα και ικανότητα διαβίβασης δεδομένων, γενικά λειτουργεί αναλύοντας τα δεδομένα ανά ομάδες. Αυτό περιορίζει όμως αρκετά ως προς τη λανθάνουσα κατάσταση και την προσβασιμότητα, ανέφερε ο διευθύνων σύμβουλος της Alteryx, George Mathew σε μια συζήτηση στην VentureBeat.

Χρειάζεσαι έναν εξειδικεύμενο προγραμματιστή της MapReduce κάθε φορά που θες να λάβεις κάτι από την Hadoop, αλλά αυτό δεν συμβαίνει με την Spark, ανέφερε ο Mathew. Η Alteryx επεξεργάζεται μια στάνταρ Spark που θα θέτει κανείς κατευθείαν ερωτήσεις αντί για σετ δεδομένων, που θα διευρύνουν την προσβασιμότητα του Spark από εκατοντάδες σε χιλιάδες αναλυτές δεδομένων – άνθρωποι που ξέρουν να γράφουν ερωτήσεις SQL και να προσαρμόζουν δεδομένα αποτελεσματικά, αλλά δεν είναι γνώστες γραφής MapReduce και εργασιών προγραμματισμού σε Java.

Το πλαίσιο Spark είναι καλά ενημερωμένο ώστε να απαντά αυτές τις ερωτήσεις, καθώς εκμεταλλεύεται την μνήμη που μοιράζεται σε όλους τους εξυπηρετητές σε μια συστάδα. Αυτό σημαίνει πως μπορεί να χρησιμοποιεί δεδομένα analytics σε απίστευτα γρήγορες ταχύτητες σε σχέση με το MapReduce: τα προγράμματα τρέχουν 100 φορές πιο γρήγορα στη μνήμη και 10 φορές στον δίσκο. Αυτές οι ενισχύσεις απόδοσης – και κατ’ επέκταση η ζήτηση από τους πελάτες – οδήγησε τους προμηθευτές της Hadoop, όπως την Cloudera και την MapR να υποστηρίξουν την Spark.

Η Databricks, που ιδρύθηκε από τους δημιουργούς της Spark, σήμερα ανακοίνωσε μια επένδυση $33 εκατομμυρίων, φέρνοντας όλη την επένδυση στα $47 εκατομμύρια. Αποκάλυψε επίσης μια νέα υπηρεσία για την διαχείριση των θέσεων εργασίας στη Spark και για την οπτικοποίηση των δεδομένων σε ένα cloud ιδιοκτησίας της Databricks. Άλλη μια κίνηση λοιπόν από τη Databricks για να κάνει τη Spark όσο πιο προσβάσιμη γίνεται, ένα στόχος που η συνεργασία με την Alteryx θα κάνει πιο εύκολα πραγματικότητα.

«Θέλουμε να δημιουργήσουμε μια νέα γενιά από άτομα που ασχολούνται με δεδομένα και analytics αλλά δεν ήταν ικανά να το κάνουν αυτό παλιότερα,» ανέφερε ο Mathew. «Είμαστε απλά συνεπαρμένοι που θα εργαστούμε σε αυτό μαζί.»

Χτίζοντας το μέλλον των big data, προστίθενται κατασκευαστικά ζητήματα

Δημιουργώντας τα συστήματα back-end που να στηρίζουν την επιχειρηματική ευφυΐα και εφαρμογές analytics ήταν σχετικά απλό - ή τουλάχιστον ξεκάθαρο. Αν δημιουργούσες μια αποθήκη δεδομένων για να εισάγεις δεδομένα συναλλαγών σε αυτά, τότε ίσως γυρίσεις κάποια δεδομένα με υποσύνολα των πληροφοριών για μεμονωμένα τμήματα ή ομάδες χρηστών. Αλλά όσο κινούμαστε προς το μέλλον των big data, τα πράγματα δεν είναι πια τόσο απλά. Νέες τεχνολογίες όπως η Hadoop, συστήματα πρόσβασης και βάσεις δεδομένων NoSQL έχουν μπει στο παιχνίδι. Τα παλιότερα - βάσεις δεδομένων σε στήλες, δεδομένα πρόσβασης σε μνήμη – έχουν επικρατήσει και, πιο πρόσφατα, ένα πολύ μικρό μέρος καταλαμβάνεται από τα big data.

Δεν υπάρχει εύκολη συνταγή για την ανάμειξη όλων αυτών των τεχνολογιών μαζί με mainstream βάσεις δεδομένων για την δημιουργία big data. Ο William McKnight, πρόεδρος της McKnight Consulting Group στο Plano του Τέξας, χρησιμοποιεί τη φράση κατασκευή άνευ αναφορών για να περιγράψει την παρούσα κατάσταση. «Κάθε εταιρία είναι διαφορετική», ανέφερε σε μια βιντεοσκοπημένη συνέντευξη με τη SearchDataManagement τον Φεβρουάριο του 2014. «Οι μέρες που ένα επενδυτής ή ένας σύμβουλος μπορούσαν να μπουν σε έναν κατάστημα με ένα φύλλο χαρτί και να πουν «Πρέπει να κάνουν όλοι αυτό» έχουν περάσει ανεπιστρεπτί.»

Ίσως αυτός είναι ο λόγος που η αναλύτρια της Gartner Inc., η Svetlana Sicular βρήκε δύο φορές περισσότερες δουλειές για κατασκευαστές δεδομένων σε σχέση με τους επιστήμονες δεδομένων σχετικά με το Hadoop στην περιοχή της Νέας Υόρκης, στην ιστοσελίδα για εύρεση εργασίας Dice.com, όπως ανέφερε αναλυτικά σε μια ανακοίνωση σε μπλογκ το 2014. Η Sicular πρόσθεσε πως τα ερωτήματα από τους πελάτες της πρόσφατα έγιναν ερωτήσεις τύπου «όχι ανοησίες περί κατασκευής big data, περιπτώσεις διαχείρισης και χρήσης σε αληθινό χρόνο.»

Η SearchDataManagement και η αντίστοιχη σελίδα της, SearchBusinessAnalytics, έχουν δημοσιεύσει μια ποικιλία περιεχομένων που προσφέρουν ιδέες και συμβουλές για να βοηθήσουν οργανισμούς να κατασκευάσουν υποδομές big data. Στη συνέντευξή του, ο McKnight αναφέρει την απουσία ομοιομορφίας και στα οικοσυστήματα big data. Σε ένα άλλο βίντεο ερωτήσεων και απαντήσεων, ο John Myers, αναλυτής στην Enterprise Management Associates, συζητά την ανάμειξη τεχνολογιών διαχείρισης δεδομένων για την υποστήριξη εφαρμογών big data. Μια έρευνα ελέγχει την ανάπτυξη πλατφορμών big data με βάση cloud στα συνεργατικά σουπερμάρκετ Allegiance Retail Services, ενώ κάπου αλλού ερευνάται η ξεκάθαρη σκέψη που χρειάζεται για την αξιολόγηση και την επιλογή των τεχνολογιών big data.

Γράφοντας ως μέλος της BI Experts Panel, ο σύμβουλος Rick van der Lans εξετάζει την ανταγωνιστική σημασία των big data - και των εταιρικών στελεχών που κατανοούν τις τεχνολογίες και το πώς να τις εκμεταλλευτούν. Άλλο δύο μέλη του πάνελ, οι σύμβουλοι Claudia Imhoff και Colin White περιγράφουν αναλυτικά την προτεινόμενη μέθοδο για την επέκταση των κατασκευών αποθηκών παραδοσιακών δεδομένων για να χειριστούν τις σημερινές ανάγκες δεδομένων. Ένα άλλο μέλος του πάνελ, ο Wayne Eckerson, αναφέρει πως ήρθε η ώρα να σταματήσουμε να αυθαδιάζουμε προς την αποθήκη δεδομένων. Σύμφωνα με τον τελευταίο, παίζει ακόμα σημαντικό ρόλο στην κατασκευή ΙΤ, ακόμη και στο μέλλον που ανήκει ολοκληρωτικά στα big data.

Η Databricks συνεργάζεται με την Alteryx για να αποκτήσουν από κοινού την Spark για εργασίες big data

Newsletter