Τι ακολουθεί στην έρευνα για τα μεγάλα γλωσσικά μοντέλα (LLM); Ακολουθεί το τι έρχεται στο δρόμο του ML

22/03/2023 | | |

Περίληψη άρθρου:
Μεγάλα γλωσσικά μοντέλα (LLM) έχουν χρησιμοποιηθεί σε ποικίλες εφαρμογές, όπως η σύνταξη ηλεκτρονικών μηνυμάτων και η παραγωγή κώδικα λογισμικού. Ωστόσο, υπάρχουν ανησυχίες σχετικά με τα όριά τους, όπως η ψευδής παραίσθηση ψευδών γεγονότων, η αποτυχία σε εργασίες που απαιτούν κοινή λογική και η κατανάλωση μεγάλων ποσοτήτων ενέργειας. Για την αντιμετώπιση αυτών των ζητημάτων, διεξάγεται έρευνα σε τομείς όπως η ανάκτηση γνώσης, η μηχανική προτροπής, οι τεχνικές ευθυγράμμισης και τελειοποίησης και οι βελτιστοποιημένες LLMs. Η ανάκτηση γνώσης περιλαμβάνει την παροχή στο LLM επιπλέον πλαισίου από μια εξωτερική πηγή γνώσης. Η μηχανική των προτροπών είναι ένα σύνολο τεχνικών για τη διαμόρφωση προτροπών που καθοδηγούν τις LLM ώστε να παράγουν πιο αξιόπιστα αποτελέσματα. Οι τεχνικές ευθυγράμμισης και τελειοποίησης περιλαμβάνουν τη λεπτομερή ρύθμιση των LLM με σύνολα δεδομένων συγκεκριμένων εφαρμογών για τη βελτίωση της ευρωστίας και της απόδοσής τους. Τέλος, αναπτύσσονται βελτιστοποιημένα LLM για τη μείωση του κόστους εκτέλεσης ενός μοντέλου, όπως η έκδοση 13 δισεκατομμυρίων παραμέτρων του LLaMa , η οποία ξεπερνά την έκδοση 175 δισεκατομμυρίων παραμέτρων του GPT-3. Αυτές οι εξελίξεις θα βοηθήσουν να γίνουν τα LLM πιο αξιόπιστα και προσιτά στην κοινότητα των προγραμματιστών και των ερευνητών.

Αναλυτικά το άρθρο:
Υπάρχει μεγάλος ενθουσιασμός γύρω από τις πιθανές εφαρμογές των μεγάλων γλωσσικών μοντέλων (LLM). Βλέπουμε ήδη να χρησιμοποιούνται LLM
σε διάφορες εφαρμογές, όπως η σύνθεση μηνυμάτων ηλεκτρονικού ταχυδρομείου και η δημιουργία κώδικα λογισμικού.

Καθώς όμως το ενδιαφέρον για τα LLM αυξάνεται, αυξάνονται και οι ανησυχίες σχετικά με τα όριά τους- αυτό μπορεί να δυσχεράνει τη χρήση τους σε διάφορες εφαρμογές. Ορισμένες από αυτές περιλαμβάνουν την παραίσθηση ψευδών γεγονότων, την αποτυχία σε εργασίες που απαιτούν κοινή λογική και την κατανάλωση μεγάλων ποσοτήτων ενέργειας.

Ακολουθούν ορισμένοι από τους ερευνητικούς τομείς που μπορούν να βοηθήσουν στην αντιμετώπιση αυτών των προβλημάτων και να καταστήσουν τις LLMs διαθέσιμες σε περισσότερους τομείς στο μέλλον.

Ανάκτηση γνώσης
Ένα από τα βασικά προβλήματα των LLMs όπως το ChatGPT και το GPT-3 είναι η τάση τους να "παραισθάνονται". Αυτά τα μοντέλα εκπαιδεύονται για να παράγουν κείμενο που είναι αληθοφανές και δεν βασίζεται σε πραγματικά γεγονότα. Αυτός είναι ο λόγος για τον οποίο μπορούν να επινοήσουν πράγματα που δεν συνέβησαν ποτέ. Από την κυκλοφορία του ChatGPT, πολλοί χρήστες έχουν επισημάνει πώς το μοντέλο μπορεί να ωθηθεί στη δημιουργία κειμένου που ακούγεται πειστικό αλλά είναι πραγματικά λανθασμένο.

Μια μέθοδος που μπορεί να βοηθήσει στην αντιμετώπιση αυτού του προβλήματος είναι μια κατηγορία τεχνικών που είναι γνωστή ως "ανάκτηση γνώσης". Η βασική ιδέα πίσω από την ανάκτηση γνώσης είναι να παρέχεται στο LLM επιπλέον περιεχόμενο από μια εξωτερική πηγή γνώσης, όπως η Wikipedia ή μια βάση γνώσης ειδικού τομέα.

Η Google εισήγαγε το 2020 την "προ-εκπαίδευση γλωσσικού μοντέλου με ανάκτηση γνώσης" (REALM). Όταν ένας χρήστης παρέχει μια προτροπή στο μοντέλο, μια μονάδα "νευρωνικής ανάκτησης" χρησιμοποιεί την προτροπή για να ανακτήσει σχετικά έγγραφα από ένα σώμα γνώσεων. Τα έγγραφα και η αρχική προτροπή διαβιβάζονται στη συνέχεια στο LLM, το οποίο παράγει την τελική έξοδο στο πλαίσιο των εγγράφων γνώσης.

Οι εργασίες για την ανάκτηση γνώσης συνεχίζουν να σημειώνουν πρόοδο. Πρόσφατα, η AI21 Labs παρουσίασε την "επαυξημένη γλωσσική μοντελοποίηση ανάκτησης εντός πλαισίου", μια τεχνική που καθιστά εύκολη την υλοποίηση της ανάκτησης γνώσης σε διάφορα LLM μαύρου κουτιού και ανοικτού κώδικα.

Μπορείτε επίσης να δείτε την ανάκτηση γνώσης σε λειτουργία στο You.com και στην έκδοση του ChatGPT που χρησιμοποιείται στο Bing . Αφού λάβει την προτροπή, το LLM δημιουργεί πρώτα ένα ερώτημα αναζήτησης, στη συνέχεια ανακτά έγγραφα και παράγει την έξοδό του χρησιμοποιώντας αυτές τις πηγές.

Παρέχει επίσης συνδέσμους προς τις πηγές, κάτι που είναι πολύ χρήσιμο για την επαλήθευση των πληροφοριών που παράγει το μοντέλο. Η ανάκτηση γνώσης δεν είναι μια τέλεια λύση και εξακολουθεί να κάνει λάθη. Φαίνεται όμως να είναι ένα βήμα προς τη σωστή κατεύθυνση.

Καλύτερες τεχνικές άμεσης μηχανικής
Παρά τα εντυπωσιακά αποτελέσματά τους, τα LLM δεν κατανοούν τη γλώσσα και τον κόσμο - τουλάχιστον όχι με τον τρόπο που το κάνουν οι άνθρωποι. Ως εκ τούτου, θα υπάρχουν πάντα περιπτώσεις όπου θα συμπεριφέρονται απροσδόκητα και θα κάνουν λάθη που φαίνονται χαζά στους ανθρώπους.

Ένας τρόπος αντιμετώπισης αυτής της πρόκλησης είναι η "μηχανική προτροπών", ένα σύνολο τεχνικών για τη διαμόρφωση προτροπών που καθοδηγούν τα LLM να παράγουν πιο αξιόπιστα αποτελέσματα. Ορισμένες μέθοδοι μηχανικής προτροπών περιλαμβάνουν τη δημιουργία παραδειγμάτων "μάθησης λίγων βολών", όπου προτάσσεται η προτροπή σας με μερικά παρόμοια παραδείγματα και την επιθυμητή έξοδο.

Το μοντέλο χρησιμοποιεί αυτά τα παραδείγματα ως οδηγούς όταν παράγει την έξοδό του. Με τη δημιουργία συνόλων δεδομένων με παραδείγματα λίγων βολών, οι εταιρείες μπορούν να βελτιώσουν την απόδοση των LLM χωρίς να χρειάζεται να τα επανεκπαιδεύσουν ή να τα συντονίσουν.

Μια άλλη ενδιαφέρουσα γραμμή εργασίας είναι η "προτροπή της αλυσίδας σκέψης (CoT)", μια σειρά από τεχνικές μηχανικής προτροπής που επιτρέπουν στο μοντέλο να παράγει όχι μόνο μια απάντηση αλλά και τα βήματα που χρησιμοποιεί για να φτάσει σε αυτήν. Η προτροπή CoT είναι ιδιαίτερα χρήσιμη για εφαρμογές που απαιτούν λογική σκέψη ή υπολογισμό βήμα προς βήμα.

Υπάρχουν διάφορες μέθοδοι CoT, συμπεριλαμβανομένης μιας τεχνικής λίγων βολών που προτάσσει την προτροπή με μερικά παραδείγματα βηματικών λύσεων. Μια άλλη μέθοδος, η Zero-shot CoT, χρησιμοποιεί μια φράση ενεργοποίησης για να αναγκάσει το LLM να παράγει τα βήματα που φτάνει στο αποτέλεσμα.

Μια πιο πρόσφατη τεχνική που ονομάζεται "πιστή συλλογιστική αλυσίδα σκέψης" χρησιμοποιεί πολλαπλά βήματα και εργαλεία για να διασφαλίσει ότι το αποτέλεσμα του LLM είναι μια ακριβής αντανάκλαση των βημάτων που χρησιμοποιεί για να φτάσει στα αποτελέσματα.

Η συλλογιστική και η λογική είναι μεταξύ των θεμελιωδών προκλήσεων της βαθιάς μάθησης που μπορεί να απαιτούν νέες αρχιτεκτονικές και προσεγγίσεις στην ΤΝ. Αλλά προς το παρόν, οι καλύτερες τεχνικές προτροπής μπορούν να βοηθήσουν στη μείωση των λογικών λαθών που κάνουν οι LLM και να βοηθήσουν στην αντιμετώπιση των λαθών τους.

Τεχνικές ευθυγράμμισης και τελειοποίησης
Η λεπτομερής ρύθμιση των LLM με σύνολα δεδομένων συγκεκριμένων εφαρμογών θα βελτιώσει την ευρωστία και την απόδοσή τους σε αυτούς τους τομείς. Η λεπτομερής ρύθμιση είναι ιδιαίτερα χρήσιμη όταν ένα LLM όπως το GPT-3 αναπτύσσεται σε έναν εξειδικευμένο τομέα όπου ένα μοντέλο γενικής χρήσης θα είχε κακές επιδόσεις.

Νέες τεχνικές λεπτομερούς ρύθμισης μπορούν να βελτιώσουν περαιτέρω την ακρίβεια των μοντέλων.

Αξιοσημείωτη είναι η "ενισχυτική μάθηση από ανθρώπινη ανατροφοδότηση" (RLHF), η τεχνική που χρησιμοποιήθηκε για την εκπαίδευση του ChatGPT. Στην RLHF, οι ανθρώπινοι σχολιαστές ψηφίζουν τις απαντήσεις ενός προ-εκπαιδευμένου LLM.

Η ανατροφοδότησή τους χρησιμοποιείται στη συνέχεια για την εκπαίδευση ενός συστήματος ανταμοιβής που βελτιώνει περαιτέρω το LLM ώστε να ευθυγραμμιστεί καλύτερα με τις προθέσεις των χρηστών. Το RLHF λειτούργησε πολύ καλά για το ChatGPT και είναι ο λόγος για τον οποίο είναι τόσο πολύ καλύτερο από τους προκατόχους του στο να ακολουθεί τις οδηγίες του χρήστη.

Το επόμενο βήμα για τον τομέα θα είναι η OpenAI, η Microsoft και άλλοι πάροχοι πλατφορμών LLM να δημιουργήσουν εργαλεία που θα επιτρέπουν στις εταιρείες να δημιουργούν τις δικές τους σωληνώσεις RLHF και να προσαρμόζουν τα μοντέλα για τις εφαρμογές τους.

Βελτιστοποιημένες LLM
Ένα από τα μεγάλα προβλήματα των LLMs είναι το απαγορευτικό τους κόστος. Η εκπαίδευση και η εκτέλεση ενός μοντέλου του μεγέθους του GPT-3 και του ChatGPT μπορεί να είναι τόσο δαπανηρή που θα τα καταστήσει μη διαθέσιμα για ορισμένες εταιρείες και εφαρμογές.

Υπάρχουν διάφορες προσπάθειες για τη μείωση του κόστους των LLMs. Ορισμένες από αυτές επικεντρώνονται στη δημιουργία αποδοτικότερου υλικού, όπως είναι οι ειδικοί επεξεργαστές τεχνητής νοημοσύνης που έχουν σχεδιαστεί για LLM. Μια άλλη ενδιαφέρουσα κατεύθυνση είναι η ανάπτυξη νέων LLMs που μπορούν να ανταποκρίνονται στις επιδόσεις μεγαλύτερων μοντέλων με λιγότερες παραμέτρους.

Ένα παράδειγμα είναι το LLaMA, μια οικογένεια μικρών LLM υψηλής απόδοσης που αναπτύχθηκε από το Facebook. Τα μοντέλα LLaMa είναι προσβάσιμα για ερευνητικά εργαστήρια και οργανισμούς που δεν διαθέτουν την υποδομή για την εκτέλεση πολύ μεγάλων μοντέλων.

Σύμφωνα με το Facebook, η έκδοση του LLaMa με 13 δισεκατομμύρια παραμέτρους ξεπερνά την έκδοση του GPT-3 με 175 δισεκατομμύρια παραμέτρους σε σημαντικά benchmarks, ενώ η παραλλαγή με 65 δισεκατομμύρια παραμέτρους ταιριάζει με την απόδοση των μεγαλύτερων μοντέλων, συμπεριλαμβανομένου του PaLM με 540 δισεκατομμύρια παραμέτρους.

Ενώ τα LLM έχουν να ξεπεράσουν πολλές ακόμη προκλήσεις, θα είναι ενδιαφέρον πώς αυτές οι εξελίξεις θα βοηθήσουν να γίνουν πιο αξιόπιστα και προσιτά στην κοινότητα των προγραμματιστών και των ερευνητών.

Πηγή: What’s next in large language model (LLM) research? Here’s what’s coming down the ML pike

Τι ακολουθεί στην έρευνα για τα μεγάλα γλωσσικά μοντέλα (LLM); Ακολουθεί το τι έρχεται στο δρόμο του ML

Newsletter