15 Δεκέμβριος 2017

Η ClearStory Data προωθεί την γρήγορη ανάλυση μεγάλου όγκου δεδομένων

 

Η ClearStory συνεργάζεται με την HDFS και την Apache Spark στην υπηρεσία cloud, ώστε να μπορούν οι χρήστες να συγκεντρώνουν διαφορετικά δεδομένα ευρείας κλίμακας και να τα αναλύουν με ταχύτητα ενσωματωμένης μνήμης.


Συνδυάζει την επεκτασιμότητα και την χωρητικότητα πολλαπλών δεδομένων της Hadoop, την ανάλυση ενσωματωμένης μνήμης της Apache Spark, και την ευκινησία και χρηστικότητα ενός εργαλείου με σύστημα cloud που έχει σχεδιαστεί για αναλυτές επιχειρήσεων.

 

Αυτά είναι τα χαρακτηριστικά που υπόσχεται η ClearStory Data. Με την προώθηση της νέας υπηρεσίας cloud στην αγορά, η εταιρεία υποστήριξε ότι θα παρέχει καλύτερο έλεγχο της συλλογής και ανάλυσης πληροφοριών, περισσότερα είδη ανάλυσης και καλύτερη απόδοση, χάρη στην παρασκηνιακή ενσωμάτωση της πιο πρόσφατης μηχανής επεξεργασίας δεδομένων της Apache Spark (version 1.2), την πλατφόρμα ανάλυσης ενσωματωμένης μνήμης που έχει ήδη διανεμηθεί.

 

«Παλαιότερα, οι πελάτες μας μπορούσαν να φορτώνουν τα δεδομένα τους και να  χρησιμοποιούν το εργαλείο μας ώστε να βρουν συσχετισμούς χρησιμοποιώντας τη μηχανή ισοστάθμισης δεδομένων που είχαμε δημιουργήσει, αλλά ήταν πιο δύσκολο στη χρήση», υποστήριξε ο Vaibhav Nivargi, ο συν-ιδρυτής και υπεύθυνος δημιουργίας της ClearStory σε μια τηλεφωνική συνέντευξη στην InformationWeek. «Με την προώθηση της νέας μορφής, πετύχαμε ισορροπία ανάμεσα στην απλότητα όσον αφορά τις αυτοματοποιημένες εντολές και στην ευελιξία και τον έλεγχο του τρόπου με τον οποίο οι εξειδικευμένοι χρήστες εναρμονίζουν τα δεδομένα.»

 

Όταν οι χρήστες φορτώνουν δεδομένα στην υπηρεσία ClearStory, αυτά αποθηκεύονται σε ένα σύστημα διανεμημένων αρχείων Hadoop (HDFS). Αυτή η υποδομή, η οποία δημιουργήθηκε εξολοκλήρου από την ClearStory, επιτρέπει στους πελάτες να αναμείξουν ένα μεγάλο αριθμό δεδομένων ευρείας κλίμακας χωρίς να χρειάζεται να έχουν ορίσει από πριν πρότυπα δεδομένων ή σύνθετες λειτουργίες εξαγωγής-μετατροπής-φόρτωσης των δεδομένων. Τα δεδομένα αναμειγνύονται και υποβάλλονται σε παράλληλες λειτουργίες και συσχετίσεις, αφού επεξεργαστούν από την μηχανή βελτιστοποίησης των ερωτημάτων από τον ενσωματωμένο πυρήνα της Apache Spark. Οι χρήστες εργάζονται περισσότερο σε ένα περιβάλλον ανάλυσης σε πίνακα διάταξης που δημιουργήθηκε από την ClearStory, παρά χρησιμοποιώντας εργαλεία της Spark, όπως το Spark SQL, το MLlib, το Spark Streaming, ή το GraphX.

 

«Οι χρήστες που μπορούν να καταλάβουν εννοιολογικά τα συστήματα πρόβλεψης, ομαδοποίησης ή ανάλυσης δεν θέλουν να επιβαρύνονται με την επιλογή των αλγόριθμων και των παραμέτρων ή με τη δημιουργία και την σειριοποίηση των προτύπων», υποστηρίζει ο Nivargi. «Με το σύστημα των πινάκων διάταξης, οι χρήστες μπορούν να πραγματοποιήσουν στατιστικές λειτουργίες, να βρουν συσχετισμούς στα δεδομένα, να εισάγουν ή να εξάγουν με βάση τα χαρακτηριστικά του συνόλου δεδομένων, και να μεταφέρουν σύνολα δεδομένων για να δημιουργήσουν ομάδες, λειτουργίες τις οποίες αποκαλούμε εναρμόνιση».

 

Οι πίνακες διάταξης είναι πιο ευέλικτοι από τους πίνακες εργαλείων, σύμφωνα με τον Nivargi, επειδή μπορούν να υποστούν μετατροπές και προσαρμογές και να δεχθούν νέα δεδομένα από τους χρήστες της επιχείρησης, ενώ οι αλλαγές στους πίνακες δεδομένων πρέπει συνήθως να επεξεργάζονται από προσωπικό πληροφορικής ή από εξειδικευμένους χρήστες. Στην περίπτωση της ανάλυσης λιανικής πώλησης, οι χρήστες σε μια εταιρεία συσκευασμένων καταναλωτικών εμπορευμάτων μπορούν να χρησιμοποιήσουν την υπηρεσία ClearStory ώστε να αναμείξουν και να αναλύσουν διαφορετικά δεδομένα από πωλητές και τρίτες πηγές.

 

Με το συνδυασμό των γραφικών δυνατοτήτων επεξεργασίας και ανάλυσης δεδομένων, η υπηρεσία ClearStory φαίνεται να έχει πολλά κοινά με την Databricks Cloud, την υπηρεσία της Spark (που πρόσφατα κυκλοφόρησε σε δοκιμαστική έκδοση), την οποία δημιούργησε και προώθησε η Apache Spark. Άλλα προϊόντα που μας έρχονται στο μυαλό συμπεριλαμβάνουν τα Platfora και Datameer, παρόλο που τα προϊόντα αυτά είναι εργαλεία που εγκαταστάθηκαν στον ίδιο το χώρο όπου χρησιμοποιούνται ( με το δε να διαθέτει επιλογή software hosting).

 

Η ClearStory διαφέρει από την Databrick Cloud επειδή η δε «είναι για πιο εξεζητημένους χρήστες, στους οποίους συμπεριλαμβάνονται οι επιστήμονες των δεδομένων, οι οποίοι μπορούν εύκολα να δημιουργήσουν κώδικες σε Scala, Spark SQL, ή Python», σύμφωνα με τον Nivargi. Και η ClearStory δεν ανταγωνίζεται το Platfora και το Datameer, υποστηρίζει, επειδή τα εργαλεία αυτά δημιουργήθηκαν πέρα από την υπηρεσία εγκατάστασης Hadoop που χειρίζονται οι πελάτες. Η ClearStory, αντίθετα, χειρίζεται την υποδομή των δεδομένων πίσω από τις λειτουργίες της στην υπηρεσία cloud και αυτή η περίπλοκη διαδικασία δεν γίνεται αντιληπτή από τον πελάτη.

 

Ένα ακόμα διαφορετικό στοιχείο αποτελεί το γεγονός ότι η ClearStory προσφέρει ελέγχους πηγής και πρόσβασης των δεδομένων που ζητούνται από εγκεκριμένες επιχειρήσεις. Η νέα έκδοση αναμένεται να αποκαλύπτει την προέλευση της πηγής των δεδομένων και την αρχική της δομή και σχήμα, ακόμα και όταν έχει ήδη εισαχθεί σε μεγαλύτερες ομάδες δεδομένων που έχουν υποστεί επεξεργασία και ανάλυση μέσα από την υπηρεσία ClearStory. Ένα ακόμα στοιχείο της αναβάθμισης αυτής είναι το πρότυπο χρήστη που έχει δημιουργηθεί για να μπορούν οι χρήστες των εταιρειών που δεν διαθέτουν πολλές γνώσεις στην πληροφορική ή δεν έχουν εξασκηθεί στις επιχειρηματικές πληροφορίες να έχουν πρόσβαση, να προετοιμάζουν, να αναμειγνύουν και να εναρμονίζουν δεδομένα.

 

Η ClearStory έχει να επιδείξει μια σημαντική λίστα με πελάτες μεγάλες εταιρείες, στις οποίες συμπεριλαμβάνεται η CocaCola, η Dannon, η DelMonte, και η Merck.