18 Δεκέμβριος 2017

Πώς να γίνεις ένας (Τύπου A) Data Scientist

Ο όρος Data Scientist φαίνεται πολύ γενικός. Πολλοί έχουν προσπαθήσει να τον ορίσουν αλλά δεν είναι εύκολη υπόθεση. Μία ενδιαφέρουσα περιγραφή του όρου είναι η εξής. Υπάρχουν δύο τύπου Α και Β Data Scientist.

Ο τύπος A (για Analysis) ασχολείται κατά κύριο λόγο με το να ερμηνεύσει τα δεδομένα ή να δουλέψει με αυτά με έναν στατικό τρόπο. Είναι πολύ κοντά στον στατιστικό (και μπορεί να είναι ένας) αλλά ξέρει όλες τις πρακτικές λεπτομέρειες για να δουλέψει με δεδομένα που δεν διδάσκονται σε διαλέξεις στατιστικής: ο καθαρισμός των δεδομένων, μέθοδοι για διαχείριση μεγάλων όγκων δεδομένων, visualization, βαθιά γνώση ενός συγκεκριμένου τομέα, καλή περιγραφή των δεδομένων και άλλα πολλά. Μπορεί να γράψει κώδικα αρκετά καλά χωρίς όμως να είναι απαραίτητα ειδικός.

Ο τύπος Β έχει επίσης κοινό στατιστικό υπόβαθρο με τον τύπο Α αλλά είναι και πολύ καλοί στον κώδικα και ίσως έχουν εκπαιδευτεί ως μηχανικοί λογισμικού. Ενδιαφέρεται κυρίως για να χρησιμοποιήσει τα δεδομένα στη παραγωγή. Χτίζουν μοντέλα που αλληλοεπιδρούν με τους χρήστες, συχνά κάνοντας προτάσεις (για κάποιο προϊόν, ανθρώπους που μπορεί να γνωρίζουν, διαφημίσεις κλπ).

Εδώ θα παρουσιάσουμε κάποιες συμβουλές για να γίνει κάποιος Data Scientist τύπου Α.
  1. Ξεκίνα με αυτά που ξέρεις: Αν και προφανές, συχνά αγνοείται. Μπορεί στη καριέρα σου μέχρι τώρα να μην έχεις μάθει τα κλασικά εργαλεία που χρησιμοποιούν οι data scientists αλλά κάποιο άλλο. Δεν χρειάζεται να ξεκινήσεις από το μηδέν, αλλά να χρησιμοποιήσεις αυτό που γνωρίζεις για να ξεκινήσεις γρηγορότερα να μαθαίνεις παρά να καθυστερήσεις μαθαίνοντας κάτι τελείως καινούριο.
  2. Εστίασε στη στατιστική: Για να τελειοποιήσεις τον ρόλο σου ως Data Scientist πρέπει να έχεις ένα υπόβαθρο στατιστικής και να καταλαβαίνεις τα μαθηματικά πίσω από τις προβλέψεις. Δεν είναι δυνατό να τελειοποιήσεις και τα δύο αμέσως. Αλλά αξίζει η προσπάθεια!
  3. Εστίασε στη λύση προβλημάτων με μεγάλο όγκο δεδομένων: Δεν είναι το ίδιο με τα Big Data αλλά εστιάζοντας σε μεγάλους όγκους δεδομένων δίνει μια πιο πλούσια εμπειρία. Αυτό ισχύει ακόμα και αν τα δεδομένα είναι άσχετα με το πεδίο που ασχολείσαι. Η διαδικασία διαχείρισης μεγάλου όγκου είναι από μόνη της σπουδαία εμπειρία.
  4. Εξειδικεύσου σε ένα στενό πεδίο: Γίνε ειδικός σε ένα πολύ ξεκάθαρα ορισμένο και πολύ στενό κομμάτι ενός θέματος. Βρες τι είναι της μόδας και έχει ζήτηση στο χώρο και δούλεψε πολύ πάνω σε αυτό για να παρουσιάσεις τις ικανότητες σου και να διεκδικήσεις τον όρο του «ειδικού» σε αυτό το κομμάτι.
  5. Λύσε ένα μεγάλο πρόβλημα του κλάδου: Σε αντίθεση με το τέσσερα, κοιτάζεις την μεγάλη εικόνα. Χρειάζεται μεγάλη κατανόηση και εμπειρία για να δεις τον κενό χώρο σε κάποιον κλάδο, και να μπεις εκεί.
  6. Αλγόριθμοι του Kaggle: Αν συμμετέχεις στους διαγωνισμούς του Kaggle  θα έχεις παρατηρήσεις ότι χρησιμοποιούν κάποιους αλγόριθμους συνεχώς. Ίσως να μην είναι τυχαίο. Ενημερώσου καθώς μπορεί να σου χρειαστούν!
  7. Εστίασε σε εργαλεία: Υπάρχουν πολλά τέτοια εργαλεία που θα σου κάνουν τη ζωή εύκολη. Στα περισσότερες περιπτώσεις χρησιμοποιούν γλώσσες προγραμματισμού, όπως η R.
  8. Εστίασε στην R: Όποια και αν είναι η άποψη σου για το ποια γλώσσα είναι «καλύτερη», η R έχει μεγάλη έλξη σε εταιρικό επίπεδο. Δες την Oracle, Microsoft, HPE, SAP (Hana) κλπ
Για να συνοψίσουμε, μην προσπαθείς να τα ξέρεις όλα αλλά, ειδικά στην αρχή, εστίασε σε κάποια πρακτικά βήματα. Υπάρχουν πολλού εναλλακτικοί δρόμοι για να σε πάνε στο προορισμό σου. Γενικά, μάθε να γράφεις κώδικα, χτίσε κάτι δικό σου, κατάλαβε καλύτερα την εφαρμοσμένη στατιστική. Ο ρόλος του Data Scientist είναι πολύ γενικός και όσο περνάει ο καιρός πλαταίνει περισσότερο και εφαρμόζεται σε πολλά πεδία. Εκμεταλλεύσου το!


Πηγή: kdnuggets.com