11 Δεκεμβρίου 2017

Το μυστικό που οι δημοσιογράφοι των δεδομένων δεν παραδέχονται

Ρίξτε μια ματιά στον χάρτη. Λέει μια ιστορία. Περιγράφει την ετήσια αλλαγή στον πληθυσμό στις ΗΠΑ, σύμφωνα με τα τελευταία δεδομένα. Φαίνεται που αυξάνεται ο πληθυσμός, όπως στις ακτές, στο Sum Belt και στα πεδία πετρελαίων στη δυτική Βόρεια Ντακότα. Επίσης, δείχνει που μειώνονται τα νούμερα, όπως κατά μήκος του Ποταμού Mississippi.
Αυτή την ιστορία ήθελαν να διηγηθούν οι δημιουργοί του.

Ας δούμε τώρα τον πιο κάτω χάρτη, όπου δημιουργήθηκε με τα ίδια ακριβώς δεδομένα:


Στη λεζάντα πάνω από τον πίνακα, αναφέρει πως, σύμφωνα με τον χάρτη, η αύξηση του πληθυσμού πέρσι μειώθηκε στις πιο ακριβές κομητείες της χώρας, όπως αυτές στη Silicon Valley της California, και αυξήθηκε στις πιο βατές κομητείες. Αλλά είναι σχεδόν αδύνατο να καταλήξει κανείς στο ίδιο συμπέρασμα απλά κοιτώντας το χάρτη. Βασικά, είναι σχεδόν αδύνατο να βγάλεις οποιοδήποτε συμπέρασμα!

Η διαφορά ανάμεσα στους δύο χάρτες, τονίζοντας ότι έχουν χρησιμοποιήσει τα ίδια δεδομένα, υπογραμμίζει το μυστικό στη δημοσιογραφία των δεδομένων. Το visualization των δεδομένων είναι τόσο τέχνη όσο και επιστήμη. Και από ότι φαίνεται μικρές αποφάσεις στο design, όπως η επιλογή των χρωμάτων, μπορεί να αλλάξει δραστικά το πώς τα νούμερα φαίνονται και λαμβάνονται από τους αναγνώστες.

Τι συνέβη λοιπόν στον δεύτερο χάρτη; Έγινε κάτι πολύ λογικό. Χώρισε το εύρος των δεδομένων, από μείον 6.3 έως συν  28.7 τοις εκατό, σε πέντε ομάδες ίσου μεγέθους: από -6.3 έως 0.7, από 0.7 έως 7.7 κλπ. Όρισαν ένα χρώμα για κάθε ομάδα, χρωμάτισαν κάθε κομητεία ανάλογα με το σε ποια ομάδα βρίσκεται ο πληθυσμός της και δημιουργήθηκε ο χάρτης!

Ποιο είναι το πρόβλημα λοιπόν; Αν και οι ομάδες που χωρίστηκαν φαίνονται σωστές και χωρισμένες ίσα, τα νούμερα δεν είναι. Υπάρχουν δεδομένα για 3,141 κομητείες στο dataset και οι 3,138 πέφτουν στις δύο πρώτες ομάδες. Μόλις τρεις κομητείες, που αποτελούν ακραίες τιμές, βρίσκονται στη τελευταία ομάδα, και αυτές είναι οι τρεις σκούρες κομητείες που φαίνονται στο χάρτη, με αποτέλεσμα όλες οι άλλες κομητείες να έχουν πολύ παρόμοια χρώματα καθώς η σκούρα απόχρωση πήγε χαμένη και στην ουσία βγήκε από τον χάρτη.

Φυσικά δεν είναι μόνο αυτό το πρόβλημα. Δεν φαίνεται στο χάρτη η διάκριση στις κομητείες που έχουν αύξηση και μείωση πληθυσμού. Στο πρώτο χάρτη έχουν επιλεγεί αποχρώσεις του μπλε για τις θετικές τιμές και του κόκκινου για τις αρνητικές. Η επιλογή χρώματος του δεύτερου χάρτη οδηγεί στο να χαθεί αυτή η πληροφορία.

Αυτό το παράδειγμα, δείχνει πως μια σωστή ανάλυση δεδομένων μπορεί να καταστραφεί από την λάθος επιλογή κάποιων παραμέτρων, όπως τα χρώματα και την βαρύτητα που έχει το visualization στη διήγηση της ιστορίας των δεδομένων.

Τα νούμερα θεωρούνται αξιόπιστα και αντικειμενικά, ιδιότητες που τα λόγια φαίνεται να μην έχουν. Αλλά το να ανακοινώνεις νούμερα είναι σαν να ανακοινώνεις λέξεις. Παίρνεις αποφάσεις, ως το προς σε ποια θα δώσεις έμφαση και σε ποια όχι.

Η σωστή παρουσίαση των δεδομένων οδηγεί σε χρήσιμα συμπεράσματα και πληροφορίες. Η ανακριβής παρουσίαση όμως μπορεί να φέρει αντίθετα αποτελέσματα.

Πηγή: washingtonpost.com