Πώς η θεωρία παιγνίων μπορεί να κάνει την τεχνητή νοημοσύνη πιο αξιόπιστη

14/06/2024 | |

Περίληψη άρθρου:

Οι ερευνητές χρησιμοποιούν έννοιες της θεωρίας παιγνίων για να ενισχύσουν μεγάλα γλωσσικά μοντέλα βελτιώνοντας την ακρίβεια, την αποτελεσματικότητα και τη συνέπειά τους. Η πρόκληση έγκειται στο να συμφωνήσουν τα παραγωγικά και διακριτικά συστήματα του μοντέλου σε απαντήσεις για την ίδια ερώτηση. Για να αντιμετωπιστεί αυτό, αναπτύχθηκε στο ΜΙΤ ένα παιχνίδι συναίνεσης, όπου το μοντέλο παίζει εναντίον του εαυτού του για να βρει μια συμφωνημένη απάντηση. Με την ενσωμάτωση των αρχών της θεωρίας παιγνίων, το μοντέλο προσαρμόζει τις στρατηγικές του μέσω επαναλήψεων για να φτάσει σε μια ισορροπία Nash, με αποτέλεσμα τη βελτίωση της ακρίβειας και της εσωτερικής συνέπειας. Αυτή η προσέγγιση έχει δείξει πολλά υποσχόμενα αποτελέσματα στην ενίσχυση γλωσσικών μοντέλων χωρίς πρόσθετη εκπαίδευση ή αλλαγές παραμέτρων. οι ερευνητές στοχεύουν στη στρατηγική ενίσχυση των γλωσσικών μοντέλων, εφαρμόζοντας τη θεωρία παιγνίων σε διαδικασίες όπως οι αξιολογήσεις εγγράφων. Κατασκευάζοντας δέντρα παιγνίων και υπολογίζοντας ισορροπίες Nash, τα μοντέλα προτείνουν βέλτιστες απαντήσεις, προχωρώντας πέρα από τις βασικές εργασίες ερωτήσεων και απαντήσεων για να χειριστούν σύνθετες αλληλεπιδράσεις. Το έργο της DeepMind συμπληρώνει τα παιχνίδια συναίνεσης και ensemble, συγκλίνοντας δύο στρατηγικές για τη βελτίωση των γλωσσικών μοντέλων μέσα σε λίγα χρόνια.

Κύρια σημεία του άρθρου:

Οι ερευνητές χρησιμοποιούν έννοιες της θεωρίας παιγνίων για να ενισχύσουν μεγάλα γλωσσικά μοντέλα όπως το ChatGPT.
Μια μελέτη από το ΜΙΤ εισήγαγε ένα παιχνίδι συναίνεσης όπου η γεννήτρια και ο διαχωριστής του μοντέλου συνεργάζονται για να καταλήξουν σε συμφωνία.
Το παιχνίδι συναίνεσης δίνει κίνητρα για συμφωνία και ενσωματώνει προηγούμενες πεποιθήσεις για τη βελτίωση της ακρίβειας και της εσωτερικής συνέπειας στα γλωσσικά μοντέλα.
Οι δοκιμές έδειξαν ότι αυτή η προσέγγιση βελτίωσε την ακρίβεια και τη συνέπεια των απαντήσεων χωρίς να χρειάζεται πρόσθετη εκπαίδευση ή τροποποιήσεις.
Οι ερευνητές διερευνούν άλλα παιχνίδια, όπως το παιχνίδι συνόλου, για την περαιτέρω βελτίωση της απόδοσης των γλωσσικών μοντέλων μέσω αλληλεπιδράσεων με μικρότερα μοντέλα.
Οι έννοιες της θεωρίας παιγνίων μπορούν να εφαρμοστούν πέρα από τα σενάρια απάντησης ερωτήσεων σε διάφορα περιβάλλοντα του πραγματικού κόσμου.

Αναλυτικά το άρθρο:

Οι ερευνητές αξιοποιούν ιδέες από τη θεωρία παιγνίων για να βελτιώσουν μεγάλα γλωσσικά μοντέλα και να τα κάνουν πιο σωστά, αποδοτικά και συνεπή.

Φανταστείτε ότι είχατε έναν φίλο που έδινε διαφορετικές απαντήσεις στην ίδια ερώτηση, ανάλογα με τον τρόπο που την κάνατε. "Ποια είναι η πρωτεύουσα του Περού;" θα έπαιρνε μια απάντηση, και "Είναι η Λίμα η πρωτεύουσα του Περού;" θα έπαιρνε μια άλλη. Πιθανώς θα ανησυχούσατε λίγο για τις διανοητικές ικανότητες του φίλου σας και σχεδόν σίγουρα θα σας ήταν δύσκολο να εμπιστευτείτε οποιαδήποτε απάντηση έδινε.

Αυτό ακριβώς συμβαίνει με πολλά μεγάλα γλωσσικά μοντέλα (LLM), τα εξαιρετικά ισχυρά εργαλεία μηχανικής μάθησης που τροφοδοτούν το ChatGPT και άλλα θαύματα της τεχνητής νοημοσύνης. Μια γεννητική ερώτηση, η οποία είναι ανοικτού τύπου, δίνει μια απάντηση, ενώ μια διακριτική ερώτηση, η οποία περιλαμβάνει την επιλογή μεταξύ επιλογών, συχνά δίνει μια διαφορετική απάντηση. "Υπάρχει μια αποσύνδεση όταν η ίδια ερώτηση διατυπώνεται διαφορετικά", δήλωσε ο Athul Paul Jacob, διδακτορικός φοιτητής στο Τεχνολογικό Ινστιτούτο της Μασαχουσέτης.

Για να κάνουν τις απαντήσεις ενός γλωσσικού μοντέλου πιο συνεπείς -και να κάνουν το μοντέλο πιο αξιόπιστο συνολικά- ο Jacob και οι συνάδελφοί του επινόησαν ένα παιχνίδι όπου οι δύο λειτουργίες του μοντέλου οδηγούνται στην εύρεση μιας απάντησης στην οποία μπορούν να συμφωνήσουν. Αυτή η απλή διαδικασία, που ονομάστηκε παιχνίδι συναίνεσης, φέρνει ένα LLM αντιμέτωπο με τον εαυτό του, χρησιμοποιώντας τα εργαλεία της θεωρίας παιγνίων για τη βελτίωση της ακρίβειας και της εσωτερικής συνέπειας του μοντέλου.

"Η έρευνα που διερευνά την αυτοσυνέπεια μέσα σε αυτά τα μοντέλα ήταν πολύ περιορισμένη", δήλωσε ο Shayegan Omidshafiei, επιστημονικός διευθυντής της εταιρείας ρομποτικής Field AI. "Αυτή η εργασία είναι μία από τις πρώτες που το αντιμετωπίζει, με έξυπνο και συστηματικό τρόπο, δημιουργώντας ένα παιχνίδι για το γλωσσικό μοντέλο που παίζει με τον εαυτό του".

"Πρόκειται για μια πραγματικά συναρπαστική δουλειά", πρόσθεσε ο Ahmad Beirami, ερευνητής στην Google Research. Για δεκαετίες, είπε, τα γλωσσικά μοντέλα δημιουργούσαν απαντήσεις σε προτροπές με τον ίδιο τρόπο. "Με τη νέα τους ιδέα να φέρουν ένα παιχνίδι σε αυτή τη διαδικασία, οι ερευνητές του ΜΙΤ εισήγαγαν ένα εντελώς διαφορετικό παράδειγμα, το οποίο μπορεί δυνητικά να οδηγήσει σε μια πληθώρα νέων εφαρμογών".

Βάζοντας το παιχνίδι στη δουλειά

Η νέα εργασία, η οποία χρησιμοποιεί παιχνίδια για τη βελτίωση της τεχνητής νοημοσύνης, έρχεται σε αντίθεση με τις προηγούμενες προσεγγίσεις, οι οποίες μετρούσαν την επιτυχία ενός προγράμματος τεχνητής νοημοσύνης μέσω της κυριαρχίας του στα παιχνίδια. Το 1997, για παράδειγμα, ο υπολογιστής Deep Blue της IBM νίκησε τον γκρανμέτρ του σκακιού Garry Kasparov - ένα ορόσημο για τις λεγόμενες σκεπτόμενες μηχανές. Δεκαεννέα χρόνια αργότερα, ένα πρόγραμμα DeepMind της Google με το όνομα AlphaGo κέρδισε τέσσερα από τα πέντε παιχνίδια εναντίον του πρώην πρωταθλητή του Go Lee Sedol, αποκαλύπτοντας ένα άλλο πεδίο στο οποίο ο άνθρωπος δεν ήταν πλέον ο κυρίαρχος. Οι μηχανές έχουν επίσης ξεπεράσει τους ανθρώπους στη ντάμα, στο πόκερ δύο παικτών και σε άλλα παιχνίδια "μηδενικού αθροίσματος", στα οποία η νίκη του ενός παίκτη καταδικάζει πάντα τον άλλο.

Μια πολύ μεγαλύτερη πρόκληση για τους ερευνητές της ΤΝ ήταν το παιχνίδι της Διπλωματίας - ένα αγαπημένο παιχνίδι πολιτικών όπως ο Τζον Κένεντι και ο Χένρι Κίσινγκερ. Αντί για δύο αντιπάλους, το παιχνίδι περιλαμβάνει επτά παίκτες, των οποίων τα κίνητρα μπορεί να είναι δύσκολο να διαβαστούν. Για να κερδίσει, ένας παίκτης πρέπει να διαπραγματευτεί, σφυρηλατώντας συμφωνίες συνεργασίας που ο καθένας μπορεί να παραβιάσει ανά πάσα στιγμή. Η διπλωματία είναι τόσο πολύπλοκη που μια ομάδα από τη Meta έμεινε ικανοποιημένη όταν, το 2022, το πρόγραμμα τεχνητής νοημοσύνης Cicero ανέπτυξε "παιχνίδι ανθρώπινου επιπέδου" κατά τη διάρκεια 40 παιχνιδιών. Αν και δεν κατέβαλε τον παγκόσμιο πρωταθλητή, ο Cicero τα πήγε αρκετά καλά ώστε να καταταγεί στο κορυφαίο 10 τοις εκατό έναντι των ανθρώπινων συμμετεχόντων.

Κατά τη διάρκεια του προγράμματος, ο Jacob - μέλος της ομάδας Meta - εντυπωσιάστηκε από το γεγονός ότι το Cicero βασιζόταν σε ένα γλωσσικό μοντέλο για τη δημιουργία του διαλόγου του με άλλους παίκτες. Διαισθάνθηκε ανεκμετάλλευτες δυνατότητες. Ο στόχος της ομάδας, είπε, "ήταν να φτιάξουμε το καλύτερο γλωσσικό μοντέλο που θα μπορούσαμε να φτιάξουμε για τους σκοπούς του παιχνιδιού". Τι θα γινόταν όμως αν αντί γι' αυτό επικεντρώνονταν στη δημιουργία του καλύτερου παιχνιδιού που θα μπορούσαν να βελτιώσουν τις επιδόσεις των μεγάλων γλωσσικών μοντέλων;

Συναινετικές αλληλεπιδράσεις

Το 2023, ο Jacob άρχισε να ασχολείται με αυτό το ερώτημα στο MIT, συνεργαζόμενος με τους Yikang Shen, Gabriele Farina και τον σύμβουλό του, Jacob Andreas, πάνω σε αυτό που θα γινόταν το παιχνίδι συναίνεσης. Η βασική ιδέα προήλθε από τη φαντασία μιας συνομιλίας μεταξύ δύο ανθρώπων ως ένα συνεργατικό παιχνίδι, όπου η επιτυχία επέρχεται όταν ο ακροατής καταλαβαίνει τι προσπαθεί να μεταφέρει ο ομιλητής. Συγκεκριμένα, το παιχνίδι συναίνεσης έχει σχεδιαστεί για να ευθυγραμμίσει τα δύο συστήματα του γλωσσικού μοντέλου - τη γεννήτρια, η οποία χειρίζεται τις γενεσιουργές ερωτήσεις, και τον διαχωριστή, ο οποίος χειρίζεται τις διαχωριστικές ερωτήσεις.

Μετά από μερικούς μήνες στάσεων και εκκινήσεων, η ομάδα έφτιαξε αυτή την αρχή σε ένα πλήρες παιχνίδι. Αρχικά, η γεννήτρια λαμβάνει μια ερώτηση. Μπορεί να προέρχεται από έναν άνθρωπο ή από μια προϋπάρχουσα λίστα. Για παράδειγμα, "Πού γεννήθηκε ο Μπαράκ Ομπάμα;". Στη συνέχεια, η γεννήτρια λαμβάνει κάποιες υποψήφιες απαντήσεις, ας πούμε τη Χονολουλού, το Σικάγο και το Ναϊρόμπι. Και πάλι, αυτές οι επιλογές μπορεί να προέρχονται από έναν άνθρωπο, από έναν κατάλογο ή από μια αναζήτηση που πραγματοποιείται από το ίδιο το γλωσσικό μοντέλο.

Αλλά πριν απαντήσει, η γεννήτρια ενημερώνεται επίσης αν θα πρέπει να απαντήσει σωστά ή λάθος στην ερώτηση, ανάλογα με τα αποτελέσματα μιας δίκαιης ρίψης νομίσματος.

Εάν είναι κορώνα, τότε η μηχανή προσπαθεί να απαντήσει σωστά. Η γεννήτρια στέλνει την αρχική ερώτηση, μαζί με την επιλεγμένη απάντησή της, στον διαχωριστή. Εάν ο διαχωριστής διαπιστώσει ότι η γεννήτρια έστειλε σκόπιμα τη σωστή απάντηση, ο καθένας παίρνει έναν πόντο, ως ένα είδος κινήτρου.

Εάν το νόμισμα βρει γράμματα, η γεννήτρια στέλνει αυτό που πιστεύει ότι είναι η λανθασμένη απάντηση. Αν ο διαχωριστής αποφασίσει ότι του δόθηκε σκόπιμα η λάθος απάντηση, παίρνουν και οι δύο πάλι έναν πόντο. Η ιδέα εδώ είναι να δοθεί κίνητρο για συμφωνία. "Είναι σαν να μαθαίνεις σε ένα σκύλο ένα κόλπο", εξήγησε ο Jacob. "Τους δίνεις μια λιχουδιά όταν κάνουν το σωστό".

Η γεννήτρια και ο διαχωριστής ξεκινούν επίσης με κάποιες αρχικές "πεποιθήσεις". Αυτές έχουν τη μορφή μιας κατανομής πιθανοτήτων που σχετίζονται με τις διάφορες επιλογές.

Για παράδειγμα, η γεννήτρια μπορεί να πιστεύει, με βάση τις πληροφορίες που έχει συλλέξει από το διαδίκτυο, ότι υπάρχει 80% πιθανότητα ο Ομπάμα να γεννήθηκε στη Χονολουλού, 10% πιθανότητα να γεννήθηκε στο Σικάγο, 5% πιθανότητα στο Ναϊρόμπι και 5% πιθανότητα σε άλλα μέρη. Ο διαχωριστής μπορεί να ξεκινήσει με διαφορετική κατανομή. Ενώ οι δύο "παίκτες" εξακολουθούν να ανταμείβονται για την επίτευξη συμφωνίας, τους αφαιρούνται επίσης πόντοι επειδή αποκλίνουν πολύ από τις αρχικές τους πεποιθήσεις. Αυτή η ρύθμιση ενθαρρύνει τους παίκτες να ενσωματώσουν τις γνώσεις τους για τον κόσμο -που και πάλι προέρχονται από το διαδίκτυο- στις απαντήσεις τους, γεγονός που θα πρέπει να κάνει το μοντέλο πιο ακριβές. Χωρίς κάτι τέτοιο, μπορεί να συμφωνούσαν σε μια εντελώς λανθασμένη απάντηση όπως το Δελχί, αλλά και πάλι να συγκέντρωναν πόντους.

Για κάθε ερώτηση, τα δύο συστήματα παίζουν περίπου 1.000 παιχνίδια μεταξύ τους.

Κατά τη διάρκεια αυτών των πολυάριθμων επαναλήψεων, κάθε πλευρά μαθαίνει για τις πεποιθήσεις της άλλης και τροποποιεί τις στρατηγικές της ανάλογα.

Τελικά, η γεννήτρια και ο διαχωριστής αρχίζουν να συμφωνούν περισσότερο καθώς εγκαθίστανται σε κάτι που ονομάζεται ισορροπία Nash. Αυτή είναι αναμφισβήτητα η κεντρική έννοια της θεωρίας παιγνίων. Αντιπροσωπεύει ένα είδος ισορροπίας σε ένα παίγνιο - το σημείο στο οποίο κανένας παίκτης δεν μπορεί να βελτιώσει τα προσωπικά του αποτελέσματα αλλάζοντας στρατηγικές. Στο παιχνίδι πέτρα-ψαλίδι-χαρτί, για παράδειγμα, οι παίκτες τα καταφέρνουν καλύτερα όταν επιλέγουν κάθε μία από τις τρεις επιλογές ακριβώς το ένα τρίτο του χρόνου, και θα τα πάνε πάντα χειρότερα με οποιαδήποτε άλλη τακτική.

Στο παιχνίδι συναίνεσης, αυτό μπορεί να συμβεί με πολλούς τρόπους. Ο διαχωριστής μπορεί να παρατηρήσει ότι παίρνει έναν πόντο όταν λέει "σωστό" κάθε φορά που η γεννήτρια στέλνει τη λέξη "Χονολουλού" για τον τόπο γέννησης του Ομπάμα. Η γεννήτρια και ο διαχωριστής θα μάθουν, μετά από επαναλαμβανόμενο παιχνίδι, ότι θα ανταμειφθούν για να συνεχίσουν να το κάνουν αυτό, και κανένας από τους δύο δεν θα έχει κίνητρο να κάνει κάτι άλλο. αυτή η συναίνεση αποτελεί ένα από τα πολλά πιθανά παραδείγματα ισορροπίας Nash για το συγκεκριμένο ερώτημα. Η ομάδα του ΜΙΤ βασίστηκε επίσης σε μια τροποποιημένη μορφή ισορροπίας Nash που ενσωματώνει τις προηγούμενες πεποιθήσεις των παικτών, γεγονός που βοηθά να διατηρήσουν τις απαντήσεις τους προσγειωμένες στην πραγματικότητα.

Το καθαρό αποτέλεσμα, όπως παρατήρησαν οι ερευνητές, είναι να γίνει το γλωσσικό μοντέλο που παίζει αυτό το παιχνίδι πιο ακριβές και πιο πιθανό να δώσει την ίδια απάντηση, ανεξάρτητα από τον τρόπο με τον οποίο τίθεται η ερώτηση. Για να ελέγξει τα αποτελέσματα του παιχνιδιού συναίνεσης, η ομάδα δοκίμασε ένα σύνολο τυποποιημένων ερωτήσεων σε διάφορα γλωσσικά μοντέλα μέτριου μεγέθους με 7 δισεκατομμύρια έως 13 δισεκατομμύρια παραμέτρους. Αυτά τα μοντέλα έπαιρναν συστηματικά υψηλότερο ποσοστό σωστών απαντήσεων από τα μοντέλα που δεν είχαν παίξει, ακόμη και πολύ μεγαλύτερα με έως και 540 δισεκατομμύρια παραμέτρους. Το παίξιμο του παιχνιδιού βελτίωσε επίσης την εσωτερική συνοχή ενός μοντέλου.

Κατ' αρχήν, οποιοδήποτε LLM θα μπορούσε να επωφεληθεί από το να παίξει το παιχνίδι εναντίον του εαυτού του, και 1.000 γύροι θα χρειάζονταν μόνο μερικά χιλιοστά του δευτερολέπτου σε έναν τυπικό φορητό υπολογιστή. "Ένα ωραίο πλεονέκτημα της συνολικής προσέγγισης", δήλωσε ο Omidshafiei, "είναι ότι είναι υπολογιστικά πολύ ελαφρύ, καθώς δεν περιλαμβάνει καμία εκπαίδευση ή τροποποίηση του βασικού γλωσσικού μοντέλου".

Παίζοντας παιχνίδια με τη γλώσσα

Μετά από αυτή την αρχική επιτυχία, ο Jacob ερευνά τώρα άλλους τρόπους για να φέρει τη θεωρία παιγνίων στην έρευνα του LLM. Τα προκαταρκτικά αποτελέσματα έδειξαν ότι ένα ήδη ισχυρό LLM μπορεί να βελτιωθεί περαιτέρω παίζοντας ένα διαφορετικό παίγνιο - που ονομάζεται προσωρινά παίγνιο συνόλου - με έναν αυθαίρετο αριθμό μικρότερων μοντέλων. Το πρωταρχικό LLM θα έχει τουλάχιστον ένα μικρότερο μοντέλο που χρησιμεύει ως σύμμαχος και τουλάχιστον ένα μικρότερο μοντέλο που παίζει αντίπαλο ρόλο. Εάν το πρωτεύον LLM κληθεί να ονομάσει τον πρόεδρο των Ηνωμένων Πολιτειών, παίρνει έναν πόντο κάθε φορά που επιλέγει την ίδια απάντηση με τον σύμμαχό του και παίρνει επίσης έναν πόντο όταν επιλέγει διαφορετική απάντηση από εκείνη του αντιπάλου του. Αυτές οι αλληλεπιδράσεις με πολύ μικρότερα μοντέλα μπορούν όχι μόνο να ενισχύσουν τις επιδόσεις ενός LLM, όπως δείχνουν οι δοκιμές, αλλά και να το κάνουν χωρίς επιπλέον εκπαίδευση ή αλλαγές παραμέτρων.

Και αυτό είναι μόνο η αρχή. Επειδή μια ποικιλία καταστάσεων μπορούν να θεωρηθούν ως παιχνίδια, τα εργαλεία της θεωρίας παιγνίων μπορούν να χρησιμοποιηθούν σε διάφορα περιβάλλοντα του πραγματικού κόσμου, δήλωσε ο Ian Gemp, ερευνητής της Google DeepMind. Σε ένα έγγραφο του Φεβρουαρίου 2024, ο ίδιος και οι συνάδελφοί του επικεντρώθηκαν σε σενάρια διαπραγματεύσεων που απαιτούν πιο περίπλοκες ανταλλαγές από απλές ερωτήσεις και απαντήσεις. "Ο κύριος στόχος αυτού του έργου είναι να γίνουν τα γλωσσικά μοντέλα πιο στρατηγικά", δήλωσε.

Ένα παράδειγμα που συζήτησε σε ένα ακαδημαϊκό συνέδριο είναι η διαδικασία αναθεώρησης μιας εργασίας για την αποδοχή της από ένα περιοδικό ή συνέδριο, ειδικά αφού η αρχική υποβολή κάποιου έλαβε μια σκληρή κριτική. Δεδομένου ότι τα γλωσσικά μοντέλα αποδίδουν πιθανότητες σε διαφορετικές απαντήσεις, οι ερευνητές μπορούν να κατασκευάσουν δέντρα παιγνίων παρόμοια με εκείνα που έχουν σχεδιαστεί για παιχνίδια πόκερ, τα οποία καταγράφουν τις διαθέσιμες επιλογές και τις πιθανές συνέπειές τους.

"Μόλις το κάνετε αυτό, μπορείτε να αρχίσετε να υπολογίζετε τις ισορροπίες Nash και στη συνέχεια να κατατάσσετε ένα σωρό αντικρούσεις", δήλωσε ο Gemp. Το μοντέλο ουσιαστικά σας λέει: Αυτό πιστεύουμε ότι πρέπει να απαντήσετε.

Με το πλεονέκτημα των γνώσεων της θεωρίας παιγνίων, τα γλωσσικά μοντέλα θα είναι σε θέση να χειρίζονται ακόμη πιο περίπλοκες αλληλεπιδράσεις, αντί να περιορίζονται σε προβλήματα τύπου ερώτησης και απάντησης. "Το μεγάλο κέρδος στο μέλλον έχει να κάνει με μεγαλύτερες συζητήσεις", δήλωσε ο Andreas. "Το επόμενο βήμα είναι να έχουμε μια τεχνητή νοημοσύνη να αλληλεπιδρά με έναν άνθρωπο, όχι απλώς ένα άλλο γλωσσικό μοντέλο".

Ο Jacob βλέπει το έργο της DeepMind ως συμπληρωματικό των παιχνιδιών συναίνεσης και συνόλου. "Σε υψηλό επίπεδο, και οι δύο αυτές μέθοδοι συνδυάζουν γλωσσικά μοντέλα και θεωρία παιγνίων", είπε, ακόμη και αν οι στόχοι είναι κάπως διαφορετικοί.

Ενώ η ομάδα Gemp ρίχνει κοινές καταστάσεις σε μορφή παιγνίου για να βοηθήσει στη λήψη στρατηγικών αποφάσεων, ο Jacob είπε ότι "εμείς χρησιμοποιούμε αυτά που γνωρίζουμε για τη θεωρία παιγνίων για να βελτιώσουμε τα γλωσσικά μοντέλα σε γενικές εργασίες".

Αυτή τη στιγμή, αυτές οι προσπάθειες αντιπροσωπεύουν "δύο κλαδιά του ίδιου δέντρου", δήλωσε ο Jacob - δύο διαφορετικούς τρόπους για να βελτιωθεί η λειτουργία των γλωσσικών μοντέλων. "Το όραμά μου είναι ότι σε ένα ή δύο χρόνια αυτά τα δύο κλαδιά θα συγκλίνουν".

Πηγή: How Game Theory Can Make AI More Reliable