14 Δεκέμβριος 2017

Μηχανική Μάθηση εναντίον Στατιστικής

Στην μηχανική μάθηση όλα έχουν να κάνουν με τις προβλέψεις, την “εποπτευόμενη” μάθηση (supervised learning), και την χωρίς “εποπτεία” μάθηση (unsupervised learning), ενώ η στατιστική έχει να κάνει με το δείγμα, τον πληθυσμό και τις υποθέσεις. Αλλά πραγματικά διαφέρουν τόσο πολύ μεταξύ τους;

Πολλοί άνθρωποι έχουν αυτή την αμφιβολία, ποια είναι η διαφορά μεταξύ της στατιστικής και της μηχανικής μάθησης; Θα μπορούσαμε ας πούμε να αναφερθούμε στην έκφραση: μηχανική μάθηση εναντίον στατιστικής;

Από μια παραδοσιακή οπτική της ανάλυσης δεδομένων, η απάντηση στο παραπάνω ερώτημα είναι απλή.

  • Η μηχανική μάθηση είναι ένας αλγόριθμος που μπορεί να μάθει από τα δεδομένα χωρίς να στηρίζεται σε έναν προγραμματισμό βασισμένο σε κανόνες.
  • Η στατιστική μοντελοποίηση είναι ένας τρόπος να δούμε τις σχέσεις μεταξύ των μεταβλητών στα δεδομένα με τη μορφή μαθηματικών εξισώσεων.

Δύο διαφορετικά πλάσματα, έτσι δεν είναι; Λοιπόν, ας δούμε αν είναι πραγματικά τόσο διαφορετικά!

H μηχανική μάθηση και η στατιστική έχουν τον ίδιο στόχο

Σύμφωνα με τον Larry Wasserman:

Και τα δύο ασχολούνται με το ίδιο ερώτημα: πώς μπορούμε να μάθουμε από τα δεδομένα;

Ο Robert Tibshirani, ένας στατιστικός και ειδικός μηχανικής μάθησης στο Πανεπιστήμιο του Στάνφορντ, καλεί την μηχανική μάθηση "δοξασμένη στατιστική”.

Σήμερα, τόσο η μηχανική μάθηση όσο οι στατιστικές τεχνικές χρησιμοποιούνται στην αναγνώριση προτύπων, στην ανακάλυψη της γνώσης και στην εξόρυξη δεδομένων.

Και οι δύο αυτές μέθοδοι επικεντρώνονται στο να “τραβήξουν” γνώσεις ή ιδέες μέσα από τα δεδομένα. Όμως, οι μέθοδοί τους επηρεάζονται από τις εγγενείς διαφορές στις κουλτούρες από τις οποίες προέρχονται.

Σχετίζονται μεταξύ τους, σίγουρα. Αλλά οι γονείς τους είναι διαφορετικοί.

Η μηχανική μάθηση είναι ένα πεδίο της επιστήμης των υπολογιστών και της τεχνητής νοημοσύνης. Ασχολείται με δομικά συστήματα που μπορούν να μάθουν από τα δεδομένα, αντί να ασχολείται με ρητά προγραμματισμένες οδηγίες.

Ένα στατιστικό μοντέλο, από την άλλη πλευρά είναι ένα πεδίο των μαθηματικών.

Η μηχανική μάθηση είναι συγκριτικά ένα νέο πεδίο.

Η φτηνή υπολογιστική ισχύς και η διαθεσιμότητα μεγάλων ποσοτήτων δεδομένων επέτρεψε στους επιστήμονες να εκπαιδεύσουν τους υπολογιστές για να μάθουν από την ανάλυση των δεδομένων. Αλλά, η στατιστική μοντελοποίηση υπήρχε πολύ πριν την εφεύρεση των υπολογιστών.

Μεθοδολογικές διαφορές μεταξύ μηχανικής μάθηση και στατιστικής

Η διαφορά μεταξύ των δύο είναι ότι η μηχανική μάθηση εστιάζει στη βελτιστοποίηση και την απόδοση σε σχέση με το συμπέρασμα που είναι αυτό που ανησυχεί την στατιστική.

Το παρακάτω παράδειγμα δείχνει το πώς ένας στατιστικός και ένας ειδικός στην μηχανική μάθηση θα περιγράψουν το αποτέλεσμα του ίδιου μοντέλου:

  • Ειδικός μηχανικής μάθησης: “Το μοντέλο είναι 85% ακριβές στην πρόβλεψη του Υ δεδομένου των α, β και γ ".
  • Στατιστικός: “το μοντέλο είναι 85% ακριβές στην πρόβλεψη του Υ δεδομένου των α, β και γ και είμαι 90% σίγουρος ότι αν ξανακάνεις το πείραμα θα επιτευχθεί το ίδιο αποτέλεσμα ".

H μηχανική μάθηση δεν απαιτεί προηγούμενες παραδοχές σχετικά με τις υποκείμενες σχέσεις μεταξύ των μεταβλητών. Απλά πρέπει να “ρίξουμε” όλα τα δεδομένα που έχουμε στον υπολογιστή, και ο αλγόριθμος επεξεργάζεται τα δεδομένα και ανακαλύπτει τα πρότυπα, με τα οποία μπορούμε να κάνουμε προβλέψεις για το νέο σύνολο των δεδομένων. Η μηχανική μάθηση αντιμετωπίζει έναν αλγόριθμο σαν ένα μαύρο κουτί (black box), για όσο διάστημα αυτό λειτουργεί. Γενικά εφαρμόζεται σε υψηλά σύνολα διαστάσεων των δεδομένων (δηλαδή πολλές μεταβλητές και παρατηρήσεις), όσο περισσότερα είναι τα δεδομένα που έχετε, τόσο πιο ακριβής θα είναι η πρόβλεψή σας.

Σε αντίθεση, ο ρόλος του στατιστικού είναι να καταλάβει πώς συλλέχθηκαν τα δεδομένα, τις στατιστικές ιδιότητες των εκτιμητών ( p-value, αμερόληπτες εκτιμήτριες ), την υποκείμενη κατανομή του πληθυσμού που μελετά και τα είδη των ιδιοτήτων που θα περίμενε κανείς αν έκανε το πείραμα πολλές φορές . Θα πρέπει να ξέρει ακριβώς τι κάνει για να καταλήξει σε παραμέτρους που θα παρέχουν την ικανότητα πρόβλεψης. Οι τεχνικές στατιστικής μοντελοποίησης εφαρμόζονται συνήθως σε σύνολα χαμηλών διαστάσεων των δεδομένων, δηλαδή λιγότερες μεταβλητές και παρατηρήσεις

Συμπέρασμα

Μπορεί να φαίνεται ότι η μηχανική μάθηση και η στατιστική μοντελοποίηση είναι δύο διαφορετικοί κλάδοι της προγνωστικής μοντελοποίησης. Η διαφορά μεταξύ των δύο έχει μειωθεί σημαντικά την τελευταία δεκαετία. Και οι δύο κλάδοι έχουν μάθει ο ένας από τον άλλο πολύ και θα συνεχίσουν να έρχονται πιο κοντά στο μέλλον.

Όμως, η κατανόηση της συνεργασίας και η γνώση των διαφορών τους επιτρέπει στους εκπαιδευόμενους της μηχανικής μάθησης και στους στατιστικούς να επεκτείνουν τις γνώσεις τους και να εφαρμόζουν ακόμη και τις μεθόδους εκτός του τομέα της ειδικότητάς τους. Αυτή είναι η έννοια της «επιστήμης των δεδομένων» , η οποία έχει ως στόχο να γεφυρώσει το χάσμα. Η συνεργασία και η επικοινωνία μεταξύ αυτών των δύο συναρπαστικών κλάδων που βασίζονται στα δεδομένα, μας επιτρέπει να λαμβάνουμε καλύτερες αποφάσεις που τελικά θα επηρεάσουν θετικά τον τρόπο που ζούμε.

Πηγή: kdnuggets.com