
27 Μαρτίου 2023

Λύνοντας ένα μυστήριο μηχανικής μάθησης

Περίληψη άρθρου:
Το GPT-3 του OpenAI είναι ένα τεράστιο νευρωνικό δίκτυο που μπορεί να παράγει κείμενο που μοιάζει με ανθρώπινο κείμενο και μπορεί επίσης να μάθει να εκτελεί εργασίες χωρίς επανεκπαίδευση. Ερευνητές από το MIT, την Google Research και το Πανεπιστήμιο του Στάνφορντ έχουν μελετήσει μοντέλα παρόμοια με το GPT-3 για να κατανοήσουν πώς μπορούν να μαθαίνουν χωρίς ενημέρωση των παραμέτρων. Διαπίστωσαν ότι αυτά τα μοντέλα περιέχουν μικρότερα, απλούστερα γραμμικά μοντέλα κρυμμένα στο εσωτερικό τους, τα οποία μπορούν να εκπαιδευτούν για να ολοκληρώσουν μια νέα εργασία χρησιμοποιώντας μόνο τις πληροφορίες που περιέχονται ήδη στο μεγαλύτερο μοντέλο. Αυτή η έρευνα ανοίγει την πόρτα για περισσότερη εξερεύνηση γύρω από τους αλγόριθμους μάθησης που μπορούν να εφαρμόσουν αυτά τα μεγάλα μοντέλα και θα μπορούσε να επιτρέψει στα μοντέλα να ολοκληρώνουν νέες εργασίες χωρίς την ανάγκη δαπανηρής επανεκπαίδευσης.
Αναλυτικά το άρθρο:
Το GPT-3 του OpenAI είναι ένα μεγάλο γλωσσικό μοντέλο που έχει εκπαιδευτεί σε τεράστιο όγκο δεδομένων του διαδικτύου. Μπορεί να παράγει κείμενο που μοιάζει με ανθρώπινο, από ποίηση μέχρι κώδικα προγραμματισμού. Μπορεί επίσης να μάθει να εκτελεί εργασίες αφού δει μόνο μερικά παραδείγματα, ένα φαινόμενο γνωστό ως μάθηση εντός πλαισίου.
Αυτό σημαίνει ότι μπορεί να λάβει ένα μικρό κομμάτι κειμένου εισόδου και στη συνέχεια να προβλέψει το κείμενο που είναι πιθανό να ακολουθήσει, καθώς και να δώσει τη σωστή γνώμη όταν του ζητηθεί μια νέα πρόταση. Αυτή η τεχνολογία έχει τη δυνατότητα να φέρει επανάσταση στον τρόπο με τον οποίο αλληλεπιδρούμε με τις μηχανές. Η μάθηση στο πλαίσιο είναι μια νέα έννοια στη μηχανική μάθηση που επιτρέπει σε ένα μοντέλο να μάθει μια νέα εργασία χωρίς να ενημερώνει τις παραμέτρους του.
Eπιστήμονες από το ΜΙΤ, την Google Research και το Πανεπιστήμιο του Στάνφορντ μελετούν αυτό το φαινόμενο για να κατανοήσουν πώς λειτουργεί. Η έρευνά τους υποδηλώνει ότι τα μεγάλα μοντέλα νευρωνικών δικτύων περιέχουν μικρότερα, απλούστερα γραμμικά μοντέλα που μπορούν να εκπαιδευτούν για να ολοκληρώσουν μια νέα εργασία χρησιμοποιώντας μόνο τις πληροφορίες που ήδη περιέχονται στο μεγαλύτερο μοντέλο. Αυτό επιτρέπει στο μοντέλο να μαθαίνει μια νέα εργασία χωρίς να ενημερώνει τις παραμέτρους του.
Η έρευνα αυτή θα μπορούσε να οδηγήσει σε πιο αποδοτικά και αποτελεσματικά μοντέλα μηχανικής μάθησης. Ο Ekin Akyürek, μεταπτυχιακός φοιτητής πληροφορικής, είναι ο κύριος συγγραφέας μιας εργασίας που διερευνά το φαινόμενο της μάθησης εντός πλαισίου. Η έρευνα αυτή αποτελεί ένα σημαντικό βήμα προς την κατανόηση των μηχανισμών που κρύβονται πίσω από τη μάθηση εντός πλαισίου και ανοίγει την πόρτα για περισσότερη εξερεύνηση γύρω από τους αλγόριθμους μάθησης που μπορούν να εφαρμόσουν αυτά τα μεγάλα μοντέλα.
Η μάθηση εντός πλαισίου θα μπορούσε να επιτρέψει στα μοντέλα να ολοκληρώνουν νέες εργασίες χωρίς την ανάγκη δαπανηρής επανεκπαίδευσης. Ο Akyürek συνεργάζεται με τους Dale Schuurmans, Jacob Andreas, Tengyu Ma και Danny Zhou στην εργασία, η οποία θα παρουσιαστεί στο Διεθνές Συνέδριο για τη μάθηση αναπαραστάσεων. Η έρευνα θα μπορούσε να οδηγήσει σε μια καλύτερη κατανόηση της μάθησης εντός πλαισίου, επιτρέποντας τη λεπτομερή ρύθμιση των μοντέλων με λίγα μόνο παραδείγματα, αντί να χρειάζονται δεδομένα ειδικού τομέα και πολύπλοκη μηχανική.
Ένα μοντέλο μέσα σε ένα μοντέλο
Οι ερευνητές της μηχανικής μάθησης έχουν καταλήξει να πιστεύουν ότι τα μεγάλα γλωσσικά μοντέλα μπορούν να εκτελούν μάθηση εντός πλαισίου λόγω του τρόπου εκπαίδευσής τους. Το GPT-3, για παράδειγμα, έχει εκατοντάδες δισεκατομμύρια παραμέτρους και εκπαιδεύτηκε διαβάζοντας τεράστιες ποσότητες κειμένου από το διαδίκτυο. Όταν παρουσιάζεται μια νέα εργασία, το μοντέλο είναι πιθανό να έχει δει κάτι παρόμοιο λόγω του συνόλου δεδομένων εκπαίδευσης που διαθέτει.
Ο Akyürek υπέθεσε ότι αυτά τα μοντέλα μαθαίνουν στην πραγματικότητα να εκτελούν νέες εργασίες, κάτι που υποστηρίχθηκε από πειράματα με τη χρήση συνθετικών δεδομένων. Ο ίδιος και οι συνάδελφοί του πίστευαν ότι αυτά τα μοντέλα νευρωνικών δικτύων περιέχουν μικρότερα μοντέλα μηχανικής μάθησης που μπορούν να εκπαιδευτούν για να ολοκληρώσουν μια νέα εργασία.
Αυτό θα μπορούσε να εξηγήσει τα φαινόμενα μάθησης που παρατηρούνται με αυτά τα μεγάλα μοντέλα. Αυτό του επιτρέπει να μαθαίνει πιο σύνθετες εργασίες χωρίς να χρειάζεται να επανεκπαιδευτεί από την αρχή.
Οι ερευνητές χρησιμοποίησαν ένα μοντέλο νευρωνικού δικτύου που ονομάζεται μετασχηματιστής για να ελέγξουν μια υπόθεση. Αυτό το μοντέλο έχει την ίδια αρχιτεκτονική με το GPT-3 και εκπαιδεύεται ειδικά για μάθηση εντός πλαισίου. Εξερευνώντας την αρχιτεκτονική του, οι ερευνητές απέδειξαν θεωρητικά ότι μπορεί να γράψει ένα γραμμικό μοντέλο μέσα στις κρυφές του καταστάσεις.
Οι μαθηματικές αξιολογήσεις έδειξαν ότι αυτό το γραμμικό μοντέλο γράφεται στα πρώτα στρώματα του μετασχηματιστή. Ο μετασχηματιστής μπορεί στη συνέχεια να ενημερώνει το γραμμικό μοντέλο εφαρμόζοντας απλούς αλγορίθμους μάθησης, επιτρέποντάς του να μαθαίνει πιο σύνθετες εργασίες χωρίς να χρειάζεται να επανεκπαιδευτεί από την αρχή. Πρόκειται για μια σημαντική ανακάλυψη στην έρευνα της τεχνητής νοημοσύνης.
Διερεύνηση κρυμμένων στρωμάτων
Οι ερευνητές διερεύνησαν την υπόθεση ότι τα κρυφά στρώματα ενός μετασχηματιστή μπορούν να χρησιμοποιηθούν για την ανάκτηση μιας συγκεκριμένης ποσότητας. Κατάφεραν να δείξουν ότι η παράμετρος είναι γραμμένη στα κρυφά στρώματα, πράγμα που σημαίνει ότι το γραμμικό μοντέλο βρίσκεται κάπου εκεί μέσα.
Βασιζόμενοι σε αυτή τη θεωρητική εργασία, οι ερευνητές μπορεί να είναι σε θέση να δώσουν τη δυνατότητα σε έναν μετασχηματιστή να εκτελεί μάθηση εντός πλαισίου, προσθέτοντας δύο στρώματα στο νευρωνικό δίκτυο. Ωστόσο, υπάρχουν ακόμη πολλές τεχνικές λεπτομέρειες που πρέπει να επεξεργαστούν πριν επιτευχθεί αυτό, και θα μπορούσε να βοηθήσει τους μηχανικούς να δημιουργήσουν μοντέλα που μπορούν να ολοκληρώσουν νέες εργασίες χωρίς την ανάγκη επανεκπαίδευσης με νέα δεδομένα.
Στην εργασία αυτή, ο Akyürek και οι συνεργάτες του απέδειξαν ότι η μάθηση εντός πλαισίου μπορεί να επιτευχθεί με απλά γραμμικά μοντέλα. Προχωρώντας προς τα εμπρός, ο Akyürek σχεδιάζει να συνεχίσει να διερευνά τη μάθηση εντός πλαισίου με πιο σύνθετες συναρτήσεις, καθώς και να εφαρμόσει αυτά τα πειράματα σε μεγάλα γλωσσικά μοντέλα.
Θέλει επίσης να διερευνήσει τους τύπους δεδομένων προ-εκπαίδευσης που μπορούν να επιτρέψουν τη μάθηση εντός πλαισίου. Ο Akyürek ελπίζει ότι αυτή η εργασία θα αλλάξει τις απόψεις των ανθρώπων σχετικά με τη μάθηση στο πλαίσιο, δείχνοντας ότι αυτά τα μοντέλα δεν είναι τόσο χαζά όσο νομίζουν οι άνθρωποι και μπορούν να μάθουν νέες εργασίες.
Πηγή: Solving a machine-learning mystery