15 Δεκέμβριος 2017

IBM bets big on Spark, calling it the Linux of Big Data analytics

Η IBM  ποντάρει πολλά στην υποστήριξη του Apache Spark, την μηχανή  υψηλών-ταχυτήτων ανάλυσης και εκμάθησης-μηχανής,  η οποία είναι ότι πιο  hot  αυτή τη στιγμή σε σχέση με Big Data. Η IBM ανέφερε ότι θα ενσωματώσει το Spark  σε όλες τις πλατφόρμες της, θα δεσμεύσει πάνω από 3,500 ερευνητές και  developers σε projects σχετικά με το Spark και  θα ανοίξει τον κώδικα λογαριασμού  του SystemML, τεχνολογία εκμάθησης μηχανής,  για να ανοίξει την πόρτα στην τεχνολογία του Spark. Επίσης θα προσφέρει μαθήματα  για να εκπαιδεύσει πάνω από ένα εκατομμύριο επιστήμονες και ερευνητές δεδομένων, ,οι οποίοι θα μπορούν να χρησιμοποιήσουν το Spark.

 

Παρόλο που θεωρείται από μερικούς ταυτόχρονα  και συμπλήρωμα αλλά και ανταγωνιστής του Hadoop, το Spark στην πραγματικότητα είναι ένα από τα πολλά τμήματα του μεγάλου οικοσυστήματος του Hadoop. Είναι μια μηχανή ανάλυσης εσωτερικής μνήμης η οποία δουλεύει σε πολλά συστήματα αρχείων back-end, συμπεριλαμβανομένου  του HDFS παρόμοιο με το  Hadoop. Το Spark έγινε γρήγορα δημοφιλές σε επιχειρήσεις, οι οποίες δυσκολεύονται στην ανάλυση δεδομένων σε πολλαπλά  formats  τα οποία έχουν διασκορπιστεί  σε μη συμβατές βάσεις δεδομένων και συστήματα αρχείων.

 

Επειδή τρέχει στην μνήμη,  το Spark λειτουργεί 100 φορές πιο γρήγορα από την παρόμοια μηχανή επεξεργασίας MapReduce  του Hadoop σε παρόμοια HDFS αρχεία. Επίσης δουλεύει σε αρμονία  με τα αποθηκευμένα δεδομένα  στα Amazon Web Services' S3,  HBase,  Apache Cassandra,  MySQL και άλλα γνωστά συστήματα αρχείων,  που σημαίνει ότι οι εφαρμογές δεν χρειάζεται να επαναγράφονται για κάθε μηχανή. Το Spark θεωρείται ιδιαίτερα δυνατό, όταν δουλεύει πάνω σε μη δομημένα δεδομένα όπως τα Twitter streams.

 

Με το να  θέτουμε ένα ουσιώδες βάρος στο Spark,  η IBM  κατευθύνεται προς την απλότητα, δήλωσε  ο George Gilbert, αναλυτής Big Data στη  Wikibon. Ένα από τα κύρια παράπονα για το Hadoop είναι  ότι είναι περίπλοκο, μια λειτουργία του μεγάλου οικοσυστήματος που το περιβάλλει, συνέχισε ο  Gilbert. Projects σχετικά με το Hadoop  όπως τα Hive, Pig, Spark και Impala  έχουν τα δικά τους προγράμματα ενημέρωσης,  που σημαίνει ότι οι χρήστες  πρέπει να κάνουν οι ίδιοι την ενσωμάτωση.