14 Δεκέμβριος 2017

Big Data, βασικοί όροι και η εξήγησή τους

Σίγουρα όλοι έχουν ακούσει για τα Big data. Εδώ και τουλάχιστον 15 χρόνια είναι από τους πιο δημοφιλής όρους και δύσκολα δεν θα τον έχεις έστω ακουστά. Αλλά ακόμα και αν έχεις ενημερωθεί επαρκώς ή έχεις πάρει απλά μέρος σε project με big data ίσως να μην γνωρίζεις κάποιους βασικούς όρους και το πλήρες νόημα τους. Για αυτό θα παρουσιάσουμε τους 10 βασικότερους όρους-κλειδιά που αφορούν τα big data, όπως θα τα εξηγούσαμε σε κάποιον που θέλει απλά να ενημερωθεί σχετικά.

 

1. Big Data

 

Υπάρχουν πολλοί ορισμοί σχετικά. Κρατάμε τον πιο απλό και περιεκτικό. Τα δεδομένα είναι τεράστιου όγκου(BIG) όταν το μέγεθος τους γίνεται μέρος του προβλήματος.

 

2. Big Data Όγκος (Volume)

 

Ο όγκος αναφέρεται στην ποσότητα δεδομένων που παράγονται και αποθηκεύονται. Το μέγεθος των δεδομένων ορίζει την αξία και την πιθανή γνώση που μπορούν να δώσουν, αλλά ορίζει και αν πρόκειται για big data ή όχι.

 

3. Big Data Ταχύτητα (Velocity)

 

Είναι η ταχύτητα με την οποία παράγονται και επεξεργάζονται τα δεδομένα για να ανταπεξέλθουν στις απαιτήσεις και προκλήσεις που σχετίζονται με τη χρήση τους και την αξιοποίησή τους.

 

4. Big Data Ποικιλία (Variety)

 

Αναφέρεται στον τύπο και στην φύση των δεδομένων. Βοηθάει τους αναλυτές να χρησιμοποιήσουν επαρκώς την γνώση που αντλούν από αυτά.

 

5. Big Data Ποιότητα (Veracity)

 

Αφορά την ποιότητα των δεδομένων. Είναι κάτι που ποικίλει πολύ ανάλογα με την πηγή των δεδομένων και επηρεάζει πολύ την ανάλυση που ακολουθεί.

 

6. Big Data Αξία (Value)

 

Θεωρείται από τα βασικότερα χαρακτηριστικά, ιδιαίτερα από την οπτική γωνία μιας επιχείρησης. Αναφέρεται στην γνώση που μπορεί κανείς να αντλήσει από την επεξεργασία, ανάλυση και άλλες τεχνικές των δεδομένων.

 

7. Cloud Computing

 

Ορίζεται ως το βασιζόμενο στο διαδίκτυο computing μοντέλο που προσφέρει άμεσα(on-demand) πρόσβαση σε πηγές και εργαλεία. Αυτά μπορεί να είναι πολλά πράγματα, όπως εφαρμογές λογισμικού, servers και κέντρα δεδομένα κλπ. Συνήθως το κόστος για τέτοιες υπηρεσίες είναι ανάλογο της χρήσης, πράγμα που βοηθάει τις επιχειρήσεις να υπολογίσουν το κόστος για τις δικές τους ανάγκες. Επίσης, να ξεπεράσουν το κόστος της εγκατάστασης δικών της υποδομών, κάτι που πριν το cloud computing ήταν αναπόφευκτο.

 

8. Predictive Analytics ( Πρόβλεψης)

 

Τεχνολογία που μαθαίνει από τα δεδομένα για προβλέψει μελλοντικές τάσεις, συμπεριφορές έτσι ώστε να πάρει κανείς καλύτερες αποφάσεις.

 

9. Descriptive Analytics (Περιγραφικά)

 

Όπως συμπεραίνει κανείς και από το όνομα, κύριος στόχος είναι να συνοψίσει και να περιγράψει τα δεδομένα, χωρίς να εστιάσει τις λεπτομέρειες των συγκεκριμένων δεδομένων αλλά απλά να δοθεί η γενική εικόνα.

 

10. Αποθήκη δεδομένων (Data Warehouse)

 

Ακόμα ένας δύσκολος ορισμός. Ένας ορισμός είναι ότι πρόκειται για αρχιτεκτινικές αποθήκευσης δεδομένων που επιτρέπουν στις επιχειρήσεις να οργανώνουν, να κατανοούν και να χρησιμοποιούν τα δεδομένα τους συστηματικά, για να πάρουν στρατηγικές αποφάσεις.

 

11. Prescriptive Analytics

 

Γενικά ακολουθούν την πρόβλεψη που έγινε και πρόκειται για ενέργειες που καθορίζονται από τι έχει παρατηρηθεί από το προβλεπτικό μοντέλο (predictive modeling).

 

12. Βάση δεδομένων (Database)

 

Τα δεδομένα πρέπει να αποθηκευτούν και να επεξεργαστούν, έτσι ώστε να μπορούν να μεταμορφωθούν σε πληροφορία που αργότερα να γίνει γνώση. Ο μηχανισμός για την αποθήκευση των δεδομένων και επομένως που υλοποιεί αυτές τις διαδικασίες είναι η βάση δεδομένων.

 

13. ETL (Extract, Transform, Load)

 

Αυτή είναι η διαδικασία εξόρυξης δεδομένων από πηγές, όπως οι παραδοσιακές βάσεις δεδομένων, και τη τοποθέτησης τους σε αποθήκες δεδομένων(data warehouses).

 

14. Business Intelligence

 

Ίσως ο πιο δύσκολος ορισμός από όλους είναι ο BI. Η επιχειρηματική ευφυΐα είναι ένα ασταθές, κακώς ορισμένο ως σετ εργαλείων, τεχνολογιών και διαδικασιών που υποστηρίζουν τις επιχειρήσεις προσφέροντας ιστορικές, σύγχρονες και μελλοντικές οπτικές γωνίες στις δράσεις τους. Η σχέση μεταξύ της επιχειρηματικής ευφυίας και της εξόρυξης δεδομένων είναι περίεργος, καθώς κάποιοι λένε ότι το ένα είναι υποκατηγορία του άλλου και άλλοι το αντίθετο, άλλοι λένε ότι το ένα έχει εμπνευστεί από το άλλο και άλλοι ότι είναι κάτι τελείως ξεχωριστό και συμπληρώνει το ένα το άλλο.

 

Στην σημερινή εποχή της επιστήμης των δεδομένων και των big data θεωρείτε ότι περιλαμβάνει μια σειρά από διαδικασίες διοίκησης επιχειρήσεων και έχει επηρεαστεί πολύ από τη «κουλτούρα» του dashboard.

 

15. Apache Hadoop

 

Θα μπορούσε κανείς να υποστηρίξει άνετα πως σε αυτό οφείλεται η άνοδος της «επανάστασης» των Big Data, τουλάχιστον από την άποψη λογισμικού. Πρόκειται για ένα open-source λογισμικό με σκοπό την επεξεργασία μεγάλου όγκου δεδομένων σε ένα ομαδοποιημένο(clustered) περιβάλλον. Χρησιμοποιεί το απλό MapReduce και περιλαμβάνει και την αποθήκευση και όλη την διαδικασία ανάλυσης των δεδομένων.

 

16. Apache Spark

 

Επίσης, ένα open source λογισμικό με έμφαση στη ταχύτητα, στην ευκολία χρήσης και στις πιο σοφιστικές μεθόδους ανάλυσης, με APIs στη Java, Scala,Python,R και SUL. Το Spark τρέχει προγράμματα μέχρι 100x πιο γρήγορα από το Hadoop στη μνήμη, ή 10x στο δίσκο. Περιέχει μια σειρά από βιβλιοθήκες για μηχανική μάθηση, για επεξεργασία γραφημάτων και streaming. Τρέχει σε λάπτοπ, σε συνεργασία με άλλα προγράμματα, μόνο του ή στο σύννεφο.

 

17. Internet of Things

 

Είναι το concept που επιτρέπει τις επικοινωνίες μέσω ίντερνετ να γίνονται μεταξύ φυσικών αντικειμένων, αισθητήρων και χειριστών. Είναι μια ανερχόμενη πηγή Big Data για το μέλλον.

 

18. Μηχανική Μάθηση

 

Ασχολείται με το ερώτημα του πώς να κατασκευαστούν προγράμματα που βελτιώνονται αυτόματα με την εμπειρία. Εμπεριέχει τεχνικές από τη πληροφορική, τη στατιστική και την τεχνητή νοημοσύνη, ανάμεσα σε άλλα. Το κύριο χαρακτηριστικό της είναι οι αλγόριθμοι που εφαρμόζουν αυτή την αυτόματη βελτίωση μέσω της εμπειρία, με εφαρμογές σε πολλά διαφορετικά πεδία, όπως την εξόρυξη δεδομένων, την τεχνητή νοημοσύνη κα.