16 Δεκέμβριος 2017

H μεγάλη πρόκληση της τεράστιας παραγωγής δεδομένων: Η σύνθεσή τους.

«Απλά σκεφτείτε πόσο αλληλένδετος είναι ο κόσμος πλέον», είπε ο Matt Gould, συν-ιδρυτής της Arria NLG, μιας εξέχουσας εταιρείας στη δημιουργία και ανάπτυξη της τεχνολογίας Natural Language Generation (NLG) παγκοσμίως. «Σκεφτείτε το απλώς μέσα από το πρίσμα μιας προσωπικής εμπειρίας. Πόσα δεδομένα συλλέγει ο καθένας από εσάς καθημερινά;» Τα σύγχρονα άτομα αλληλεπιδρούν συνεχώς διαδικτυακά με υπολογιστές, κινητά και πολλές άλλες συσκευές. Πληρώνουν λογαριασμούς, βλέπουν ταινίες, αγοράζουν προϊόντα, αλληλεπιδρούν με ιατρικούς επαγγελματίες, χρησιμοποιούν εφαρμογές γυμναστικής, ακούν μουσική και εργάζονται μέσα από το διαδίκτυο.

 

«Αυτό το σύνολο αόρατων δεδομένων δημιουργείται συνεχώς και αδιάλειπτα, και αυτό συμβαίνει τουλάχιστον στο μισό πληθυσμό παγκοσμίως αυτή τη στιγμή,» υποστήριξε ο Gould κατά τη διάρκεια μιας πρόσφατης τηλεφωνικής συνέντευξης με την DATAVERSITY®. «Πλέον, η μεγάλη πρόκληση με αυτή την τεράστια παραγωγή δεδομένων είναι η σύνθεσή τους. «Μια τέτοια σύνθεση απαιτεί κατανόηση που θα προέρχεται από την ίδια τη σύνθεση με τρόπο εύκολα κατανοητό και επεξεργάσιμο. Αν πάρουμε αυτό τον τεράστιο όγκο δεδομένων που προέρχεται από τα άτομα και τον αυξήσουμε, θα έχουμε τα ποσά των Big Data που διαθέτουν πλέον οι μεγάλες εταιρείες.

 

Το πρόβλημα

 

Σε αυτό το σημείο της ιστορίας του Data Management, η πραγματική ανάλυση τόσο μεγάλου όγκου δεδομένων παραμένει σε πρώιμο στάδιο. Η βιομηχανία του Business Intelligence (BI) έχει δημιουργήσει μια πληθώρα εργαλείων, που ποικίλλουν από τις απλές περιγραφικές αναλύσεις, μέχρι πολύ πιο ανεπτυγμένες περιγραφικά αναλύσεις, με εφαρμογές όπως η Μηχανική Εκμάθηση, το Data Science, η Τεχνητή Νοημοσύνη, και άλλες. Τέτοια εργαλεία μπορούν αποτελεσματικά –εφόσον όλα τα δεδομένα βρίσκονται σε σειρά- να βοηθήσουν στη συλλογή, οργάνωση, ανάλυση και έκθεση των δεδομένων με πολλές φόρμες, όπως οι προβολές, τα γραφήματα, οι πίνακες, και η επιλογή «μου αρέσει». Ωστόσο, όπως συζητήθηκε μέσα από μια έκθεση από τον δρ. Robert Dale, τον Επιστημονικό Διευθυντή της Arria NLG, « τα σημερινά εργαλεία business intelligence, οι εφαρμογές προβολής των πληροφοριών και οι πίνακες φτάνουν μέχρι ένα σημείο¨. Χρειάζεται ακόμα ένας ειδικός ή μια ομάδα ειδικών για να ερμηνεύσουν τα δεδομένα με κατανοητούς για όλους τρόπους- είτε είναι αναλυτές της αγοράς, είτε ειδικοί του ΙΤ, είναι ανώτατα διοικητικά στελέχη, ερευνητές ή καταναλωτές. Κάποιος πρέπει να ασχοληθεί με την καταγραφή της ερμηνείας των δεδομένων με απλό τρόπο, ή απλώς με λόγια. Ο Gould σημείωσε:

 

Τι είναι το Natural Language Generation?

 

Ένας τρόπος να δώσουμε απάντηση σε μια τέτοια ερώτηση είναι να συζητήσουμε τι δεν είναι το Natural Language Generation. Σύμφωνα με τον Gould, «δεν πρόκειται απλώς για πρότυπα. Αποτελεί μια πλούσια διήγηση, που δημιουργείται απ’ την αρχή». Αναφέρθηκε στο σύστημα μετάφρασης της Google Translate, όπου ένας χρήστης γράφει μια φράση σε μια γλώσσα και εμφανίζεται μια παρόμοια φράση σε μια άλλη γλώσσα. «Είναι συναρπαστικό», υποστήριξε. «Και είναι πολύ ακριβές». Το σύστημα της Google προσπαθεί ουσιαστικά να προσομοιώσει αυτό που κάνει το μυαλό σε ένα βασικό επίπεδο. Ένας χρήστης πληκτρολογεί μια λέξη, μια φράση ή μια πρόταση και το σύστημα τη συγκρίνει και αναζητά συγκεκριμένα στοιχεία στο συγκείμενο με τον καλύτερο δυνατό τρόπο, και στη συνέχεια δίνει την απάντηση. «Αλλά σε καμία περίπτωση δεν ήξερε το σύστημα στην πραγματικότητα, ούτε κατανόησε τι του ζητούσαμε», υποστήριξε ο Gould. «Δε χρειαζόταν να γίνει αυτό. Απλώς το συνδύασε. Αυτό κάνει ουσιαστικά το σύστημα NLG… Αυτό που κάνει είναι εκείνο που κάνει και το μυαλό. Ξεκινά με την επεξεργασία των δεδομένων.

 

Η διαδικασία επεξεργασίας δεδομένων Arria NLG ξεκινά με περισσότερα από τριάντα χρόνια έρευνας και εμπειρίας από μερικούς από τους μεγαλύτερους παγκόσμιους επιστήμονες στην υποολογιστική γλωσσολογία και στην ευρετική, «ένα σύνολο από αλγόριθμους», και μεγάλο αριθμό από τεχνολογίες και πατέντες μέσα από μια πολυεπίπεδη και φτιαγμένη για ένα συγκεκριμένο σκοπό μηχανή NLG. Ορισμένα από αυτά τα στοιχεία περιλαμβάνουν σαφή αιτιολόγηση, αναζήτηση δεδομένων, αναγνώριση προτύπων, αναλύσεις χρόνου και χώρου, κριτική αξιολόγηση, σχεδιασμό ντοκουμέντων, συγχώνευση προτάσεων, επιλογή λέξεων, δημιουργία εκφράσεων, γλωσσολογική πραγματοποίηση και πολλά άλλα, που εντέλει, σύμφωνα με τον Gould, μετατρέπουν τα δεδομένα σε γραπτή και προφορική γλώσσα, με τον ίδιο τρόπο που το κάνει ο ανθρώπινος εγκέφαλος:

 

«Αποτελεί κάτι επαναστατικό με τον πιο απλό και βασικό τρόπο. Δεν πρόκειται για ένα αυτό-οδηγούμενο αυτοκίνητο, ούτε για διαστημικό ρομπότ, δεν είναι ένα νέο είδος μπαταρίας. Είναι κάτι τόσο απλό και φυσικό. Δίνουμε φωνή στο Διαδίκτυο, με την οποία μπορεί να μας μιλήσει, να δημιουργήσει τη δική του γλώσσα σε πραγματικό χρόνο και να μη βασίζεται στα άτομα που καταγράφουν πράγματα και αποθηκεύουν πράγματα για το ίδιο, ώστε να μπορεί να τα αναπαράξει τη σωστή στιγμή.

 

Αναλύσεις σε ανθρώπινους όρους

 

Οι διηγήσεις επιχειρηματικών εμπειριών από πολλές καμπίνες, αίθουσες διοικητικών συμβουλίων, και διάφορα μέλη του προσωπικού που ασχολούνται με πίνακες και υπολογιστικά φύλλα περιγράφουν ότι υπάρχει μεγάλος όγκος δεδομένων, και είναι πολύ δύσκολο αυτός ο όγκος να συνδυαστεί σε πληροφορίες που να έχουν νόημα- τα δεδομένα δεν είναι χρήσιμα από μόνα τους. Θα πρέπει να μετατραπούν σε χρήσιμες πληροφορίες πριν καταλήξουμε σε μια θεώρηση των πραγμάτων. Σύμφωνα με τον Gould:

 

«Κοιτάξτε τι γίνεται όταν έχετε μια μεγάλη εταιρεία και έχετε ξοδέψει εκατομμύρια, στην κυριολεξία εκατομμύρια σε συστήματα CRM και ERP, έχετε αποθηκεύσει συστήματα ελέγχου και συστήματα σημείων πώλησης, ώστε να κάνετε όσο καλύτερη διαχείριση της εταιρείας γίνεται. Έχετε ενσωματώσει όλα αυτά τα συστήματα, ή τουλάχιστον ελπίζετε να το έχετε κάνει, και αυτό σας έχει κοστίσει πολλά χρήματα. Πλέον το σύστημα σας δίνει αναφορά για την υγεία ολόκληρου του συστήματος. Ξέρει τι συμβαίνει, τι διαδραματίζεται από το πάτωμα του εργοστασίου μέχρι το ράφι του σούπερ μάρκετ ή την ιστοσελίδα της εταιρείας».