11 Δεκεμβρίου 2017

Να ξέρεις πότε τα Big (Μεγάλα) Data σου λένε Μεγάλα Ψέματα

Οι data scientists χρησιμοποιούν εργαλεία στατιστικής ανάλυσης για να βρουν μη εμφανή χαρακτηριστικά και συμπεριφορές στα δεδομένα. Αλλά ξέρουν ότι ο κόσμος είναι γεμάτος ψευδείς συσχετίσεις. Τα big data απλά εντείνουν το πρόβλημα.

 

 

Αυτό συμβαίνει γιατί, καθώς το εύρος των πηγών και η ποικιλία των προβλέψεων συνεχίζει να μεγαλώνει, ο αριθμός των σχέσεων που είναι πιθανό να μοντελοποιηθούν πλησιάζει το άπειρο.

 

Έτσι, αν ψάχνεις για κάποια συγκεκριμένη συσχέτιση στα δεδομένα σου, είναι πολύ πιθανό να τη βρεις αν συνδυάσεις τα σωστά δεδομένα, τις σωστές μεταβλητές και τα αναλύσεις χρησιμοποιώντας τον σωστό αλγόριθμο. Αν είσαι αρκετά έξυπνος ή έμπειρος, οι σχέσεις που ψάχνεις θα εμφανιστούν σαν το τζίνι από το λυχνάρι.

 

Και όμως, το γεγονός ότι βρήκες τη συσχέτιση αυτή δεν σημαίνει ότι υπάρχει και στον πραγματικό κόσμο. Μπορεί πολύ εύκολα να είναι ένα επινόημα της συγκεκριμένης προσέγγισης που χρησιμοποίησες, στα συγκεκριμένα δεδομένα που έχεις. Δεν χρειάζεται να γίνει αυτό με δόλο, αλλά απλά να μην ερευνηθεί παραπέρα το ζήτημα, αν ήδη έχεις βρει αυτό που ήθελες.

 

Το γεγονός ότι δεν αντιλαμβάνεται κάποιος αναλυτής τις ψευδείς σχέσεις που ανακάλυψε, συχνά οφείλεται στο γεγονός ότι είναι άνθρωπος. Η μεροληψία είναι μία παγίδα που όλοι οι άνθρωποι πέφτουν κάποια στιγμή. Ακόμα και οι πιο σπουδαίοι στατιστικοί αναλυτές έχουν κάνει ειλικρινά λάθη εξαιτίας αυτού.

 

Πως μπορούν οι αναλυτές να μειώσουν την πιθανότητα να πέσουν σε αυτή τη παγίδα; Παραθέτονται κάποιες χρήσιμες μεθοδολογίες:

 

Συνολική μάθηση: Με αυτή τη προσέγγιση καθορίζεται αν πολλά ανεξάρτητα μοντέλα, χρησιμοποιώντας τα ίδια δεδομένα αλλά εφαρμόζουν διαφορετικούς αλγόριθμους, εμφανίζουν τις ίδιες στατιστικές σχέσεις. Αν συμβαίνει αυτό, μπορείς να έχεις μεγαλύτερη εμπιστοσύνη στις σχέσεις που εμφανίζουν. Υπάρχουν διάφορες τεχνικές για να γίνει αυτό.

A/B testing: Καθορίζει ποια εναλλακτικά μοντέλα, μεταξύ των οποίων κάποιες μεταβλητές διαφέρουν και κάποιες άλλες κρατούνται σταθερές, προβλέπει καλύτερα την μεταβλητή που ενδιαφέρει. Πολλές φορές, σε πραγματικά πειράματα, γίνονται συνεχείς δοκιμές και ανανεώσεις στα μοντέλα, για να καταλήξει ο ερευνητής στις μεταβλητές με τις οποίες επιτυγχάνει καλύτερη πρόβλεψη.

Robust modeling: Καθορίζεται κατά πόσο οι προβλέψεις που γίνονται είναι σταθερές, ως προς εναλλακτικές πηγές δεδομένων, τεχνικές δειγματοληψίας, αλγοριθμικές προσεγγίσεις και άλλα πολλά. Επιπλέον, η ανάλυση των ακραίων τιμών (outliers) είναι πολύ σημαντική. Οι ακραίες τιμές όχι μόνο μπορεί να φανερώσουν σχέσεις που δεν υπάρχουν αλλά να κρύψουν και τις πραγματικές σχέσεις.

 

Αυτές οι τεχνικές, αν εφαρμόζονται συστηματικά στη δουλειά κάθε αναλυτή, μπορούν να εξασφαλίσουν ότι οι σχέσεις που ανακαλύπτονται αντανακλούν στη πραγματική ζωή.