18 Δεκέμβριος 2017

Τα μεγαλύτερα ζητήματα για τον Data Scientist

Είναι γνωστό ότι οι αναλυτές δεδομένων ή data scientists περνούν το 80% του χρόνου τους στην προετοιμασία και επεξεργασία των δεδομένων. Πολλοί αυτό το θεωρούν πρόβλημα, κάτι το οποίο δεν μπορεί να είναι σωστό. Αυτό είναι μεγάλο μέρος της δουλειά τους και αν δεν είναι καλοί σε αυτό, δεν είναι καλοί στη δουλειά τους. Η ορθότητα της ανάλυσης, η ακρίβεια των αποτελεσμάτων, της πρόβλεψης είναι σχεδόν τελείως εξαρτώμενη από την κατάλληλη προετοιμασία των δεδομένων. Ο αλγόριθμος που θα επιλεγεί στο τέλος είναι σχεδόν άνευ σημασίας. Έτσι, όταν παραπονιούνται για τη διαδικασία της προετοιμασίας των δεδομένων είναι αντίστοιχο του να παραπονιέται ένας αγρότης για τα πάντα εκτός της συγκομιδής της σοδιάς και να παρακαλεί κάποιον άλλο να αναλάβει το πότισμα, την σπορά και τις υπόλοιπες διαδικασίες.

Από την άλλη, η προετοιμασία των δεδομένων μπορεί να γίνει πολύ δύσκολη υπόθεση όταν σκεφτεί κανείς σύνολα αδόμητων δεδομένων. Ο σχεδιασμός ενός συστήματος που συλλέγει δεδομένα σε χρήσιμη μορφή για έναν αναλυτή δεδομένων είναι μορφή τέχνης. Η ενημέρωση του αναλυτή για όλη τη διαδικασία του συστήματος δεδομένων είναι επίσης κάτι πολύ σημαντικό. Συμπεριλαμβάνει διαδικασία που αποτελείται από δειγματοληψία, τακτοποίηση δεδομένων κλπ. Αλλά δεν περιλαμβάνει διαδικασίες όπως αντικατάσταση missing values και κανονικοποίηση. Δημιουργώντας το κατάλληλο περιβάλλον για έναν data scientist σημαίνει να συμμετέχει στις αποφάσεις που αφορούν τα συστήματα αυτά.

Υπάρχουν όμως πιο κεντρικά ζητήματα. Με διαφορά το μεγαλύτερο ζήτημα είναι ο αναλυτής δεδομένων που λύνει μη σημαντικά ζητήματα. Αυτό είναι μεγάλη σπατάλη ενέργειας και χρόνου. Ο λόγος είναι ότι όποιος έχει ένα πρόβλημα δεν έχει κατανοήσει τη δουλειά ενός αναλυτή για να εξηγήσει το πρόβλημα με αποτέλεσμα οι αναλυτές να καταλήγουν να δίνουν λύσεις σε ότι αυτοί κατάλαβαν, λύσεις που τελικά δεν είναι και πολύ χρήσιμες.

Το ζήτημα της λύσης στο λάθος πρόβλημα οφείλεται στο ότι ο αναλυτής δεν λαμβάνει μέρος στη διαδικασία λήψης αποφάσεων. Σίγουρα υπάρχουν πολλοί αναλυτές που δεν έχουν την ικανότητα να καταλάβουν ή να εξηγήσουν το πρόβλημα και άλλοι που τους αρέσει να λύνουν προβλήματα, είτε είναι σημαντικά είτε όχι. Πιο συχνά όμως το πρόβλημα είναι η κουλτούρα της επιχείρησης όπου η αναλυτική, το IT, τα δεδομένα κλπ θεωρούνται εκτελεστικά όργανα και μόνο. Η διοίκηση αποφασίζει μόνη της τι πρέπει να γίνει και όλοι οι υπόλοιποι πρέπει να το εκτελέσουν.

Τέλος, αυτό που αποτελεί μεγαλύτερο εμπόδιο για την αποδοτικότητα, σε ατομικό επίπεδο, είναι η έλλειψη κατανόησης των δεδομένων, της διαίσθησης και του τελικού σκεπτικισμού. Η έλλειψη αυτών των τριών δεν σημαίνει ότι αργεί κάποιος να καταλήξει σε κάποια απάντηση (αντιθέτως φτάνει πιο γρήγορα) αλλά ότι αργεί πολύ περισσότερο να φτάσει στην ΣΩΣΤΗ απάντηση.

Πηγή: kdnuggets.com