Η OpenAI ανακοινώνει ένα νέο μοντέλο τεχνητής νοημοσύνης, με κωδική ονομασία Strawberry, που επιλύει δύσκολα προβλήματα βήμα προς βήμα

15/09/2024 | |

Περίληψη του άρθρου:

Το OpenAI εισήγαγε ένα νέο μοντέλο AI που ονομάζεται OpenAI O1, το οποίο επικεντρώνεται στην προηγμένη συλλογιστική και όχι απλά να κλιμακωθεί τα μεγέθη μοντέλων. Αυτό το μοντέλο μπορεί να χειριστεί σύνθετα προβλήματα που αμφισβητούν τα υπάρχοντα μοντέλα AI όπως το GPT-4O. Σε αντίθεση με τα συμβατικά μεγάλα γλωσσικά μοντέλα (LLMS), η O1 χρησιμοποιεί την ενίσχυση της μάθησης για να ενισχύσει τις ικανότητές της για τη συλλογιστική, λαμβάνοντας ανατροφοδότηση σχετικά με τις απαντήσεις της. Ο Mark Chen από την OpenAI έδειξε την ανώτερη απόδοση του O1 στην επίλυση δύσκολων ερωτήσεων, επιτυγχάνοντας ποσοστό επιτυχίας 83% σε μια εξέταση μαθηματικών σε σύγκριση με το 12% της GPT-4O. Αν και πιο αργή και έλλειψη πολυτροπικών δυνατοτήτων, το O1 δείχνει υπόσχεση για καλύτερη λήψη αποφάσεων και ασφάλεια σε εφαρμογές AI. Οι ερευνητές υπογραμμίζουν την ανάγκη για πιο γενικευμένα συστήματα συλλογιστικής, αναγνωρίζοντας ταυτόχρονα τις συνεχιζόμενες προκλήσεις, όπως η εξασφάλιση ακριβούς λήψης αποφάσεων από μοντέλα AI.

Κύρια σημεία του άρθρου:

Το OpenAI εισάγει το νέο μοντέλο που ονομάζεται OpenAI O1, σηματοδοτώντας μια μετατόπιση από τα μοντέλα μόνο για την ενίσχυση των δυνατοτήτων συλλογισμού στο AI.
Το μοντέλο έχει σχεδιαστεί για να λύσει σύνθετα προβλήματα με τα υπάρχοντα μοντέλα όπως ο αγώνας GPT-4O, με τη μίμηση των διαδικασιών σκέψης που μοιάζει με ανθρώπινη.
Η Mira Murati, επικεφαλής της τεχνολογίας του OpenAI, τονίζει την ανωτερότητα του μοντέλου στο χειρισμό περίπλοκων εργασιών συλλογιστικής.
Το OpenAI εργάζεται για το επόμενο σημαντικό μοντέλο, το GPT-5, το οποίο θα είναι μεγαλύτερο και πιθανόν να ενσωματώσει την τεχνολογία συλλογιστικής που εισάγεται με το O1.
Το νέο μοντέλο χρησιμοποιεί την ενίσχυση της μάθησης για την ενίσχυση της διαδικασίας συλλογισμού μέσω μηχανισμών ανάδρασης.
Ο Mark Chen απέδειξε τις δυνατότητες του O1 στην επίλυση προχωρημένων προβλημάτων που ήταν προηγουμένως χωρίς να μην μπορούν να μην είναι από το GPT-4O, όπως σύνθετα ερωτήματα μαθηματικών και χημείας.

Αναλυτικά το άρθρο:

Ο δημιουργός του ChatGPT αποκαλύπτει λεπτομέρειες για αυτό που επίσημα ονομάζεται OpenAI o1, το οποίο δείχνει ότι η τεχνητή νοημοσύνη χρειάζεται κάτι περισσότερο από κλιμάκωση για να προχωρήσει.

Η OpenAI σημείωσε την τελευταία μεγάλη πρόοδο στην τεχνητή νοημοσύνη αυξάνοντας το μέγεθος των μοντέλων της σε ιλιγγιώδεις διαστάσεις, όταν παρουσίασε το GPT-4 πέρυσι. Η εταιρεία ανακοίνωσε σήμερα μια νέα πρόοδο που σηματοδοτεί μια αλλαγή προσέγγισης - ένα μοντέλο που μπορεί να "συλλογίζεται" λογικά μέσα από πολλά δύσκολα προβλήματα και είναι σημαντικά εξυπνότερο από την υπάρχουσα τεχνητή νοημοσύνη χωρίς μεγάλη κλιμάκωση.

Το νέο μοντέλο, με την ονομασία OpenAI o1, μπορεί να λύσει προβλήματα που μπερδεύουν τα υπάρχοντα μοντέλα τεχνητής νοημοσύνης, συμπεριλαμβανομένου του ισχυρότερου υπάρχοντος μοντέλου της OpenAI, του GPT-4o. Αντί να επικαλείται μια απάντηση σε ένα βήμα, όπως κάνει συνήθως ένα μεγάλο γλωσσικό μοντέλο, συλλογίζεται το πρόβλημα, σκεπτόμενο ουσιαστικά φωναχτά όπως θα έκανε ένας άνθρωπος, πριν καταλήξει στο σωστό αποτέλεσμα.

"Αυτό είναι που θεωρούμε το νέο παράδειγμα σε αυτά τα μοντέλα", λέει στο WIRED η Mira Murati, επικεφαλής τεχνολογίας της OpenAI. "Είναι πολύ καλύτερο στην αντιμετώπιση πολύ περίπλοκων εργασιών συλλογισμού".

Το νέο μοντέλο είχε την κωδική ονομασία Strawberry εντός της OpenAI και δεν είναι διάδοχος του GPT-4o αλλά μάλλον ένα συμπλήρωμά του, λέει η εταιρεία.
Η Murati λέει ότι η OpenAI κατασκευάζει αυτή τη στιγμή το επόμενο κύριο μοντέλο της, το GPT-5, το οποίο θα είναι σημαντικά μεγαλύτερο από τον προκάτοχό του. Αλλά ενώ η εταιρεία εξακολουθεί να πιστεύει ότι η κλιμάκωση θα βοηθήσει στην εξαγωγή νέων ικανοτήτων από την τεχνητή νοημοσύνη, το GPT-5 είναι πιθανό να περιλαμβάνει επίσης την τεχνολογία συλλογισμού που παρουσιάστηκε σήμερα. "Υπάρχουν δύο παραδείγματα", λέει η Murati. "Το παράδειγμα της κλιμάκωσης και αυτό το νέο παράδειγμα. Αναμένουμε ότι θα τα φέρουμε μαζί".
Τα LLM συνήθως δημιουργούν τις απαντήσεις τους από τεράστια νευρωνικά δίκτυα που τροφοδοτούνται με τεράστιες ποσότητες δεδομένων εκπαίδευσης. Μπορούν να επιδείξουν αξιοσημείωτες γλωσσικές και λογικές ικανότητες, αλλά παραδοσιακά δυσκολεύονται με εκπληκτικά απλά προβλήματα, όπως στοιχειώδεις μαθηματικές ερωτήσεις που απαιτούν συλλογισμό.

Η Murati λέει ότι το OpenAI o1 χρησιμοποιεί ενισχυτική μάθηση, η οποία περιλαμβάνει την παροχή θετικής ανατροφοδότησης σε ένα μοντέλο όταν δίνει σωστές απαντήσεις και αρνητικής ανατροφοδότησης όταν δεν το κάνει, προκειμένου να βελτιώσει τη διαδικασία συλλογισμού του. "Το μοντέλο οξύνει τη σκέψη του και βελτιώνει τις στρατηγικές που χρησιμοποιεί για να φτάσει στην απάντηση", λέει. Η ενισχυτική μάθηση έχει επιτρέψει στους υπολογιστές να παίζουν παιχνίδια με υπεράνθρωπη ικανότητα και να εκτελούν χρήσιμες εργασίες όπως ο σχεδιασμός τσιπ υπολογιστών. Η τεχνική αυτή είναι επίσης ένα βασικό συστατικό για τη μετατροπή ενός LLM σε ένα χρήσιμο και καλά συμπεριφερόμενο chatbot.

Ο Mark Chen, αντιπρόεδρος έρευνας στην OpenAI, έκανε επίδειξη του νέου μοντέλου στο WIRED, χρησιμοποιώντας το για την επίλυση διαφόρων προβλημάτων που το προηγούμενο μοντέλο του, το GPT-4o, δεν μπορεί να λύσει. Αυτά περιελάμβαναν μια προχωρημένη ερώτηση χημείας και το ακόλουθο μυαλοβόρο μαθηματικό παζλ: "Μια πριγκίπισσα είναι τόσο μεγάλη όσο θα είναι ο πρίγκιπας όταν η πριγκίπισσα θα είναι διπλάσια σε ηλικία από ότι ήταν ο πρίγκιπας όταν η ηλικία της πριγκίπισσας ήταν το μισό του αθροίσματος της σημερινής τους ηλικίας. Ποια είναι η ηλικία του πρίγκιπα και της πριγκίπισσας;" (Η σωστή απάντηση είναι ότι ο πρίγκιπας είναι 30 και η πριγκίπισσα 40).

"Το [νέο] μοντέλο μαθαίνει να σκέφτεται μόνο του, αντί να προσπαθεί να μιμηθεί τον τρόπο που θα σκέφτονταν οι άνθρωποι", όπως κάνει ένα συμβατικό LLM, λέει ο Chen.
Η OpenAI λέει ότι το νέο μοντέλο της αποδίδει αισθητά καλύτερα σε μια σειρά από σύνολα προβλημάτων, συμπεριλαμβανομένων αυτών που επικεντρώνονται στον προγραμματισμό, τα μαθηματικά, τη φυσική, τη βιολογία και τη χημεία. Στην Αμερικανική Εξέταση Μαθηματικών Πρόσκλησης (AIME), ένα τεστ για μαθητές μαθηματικών, το GPT-4o έλυσε κατά μέσο όρο το 12% των προβλημάτων, ενώ το o1 πέτυχε 83% σωστές απαντήσεις, σύμφωνα με την εταιρεία.

Το νέο μοντέλο είναι πιο αργό από το GPT-4o, και η OpenAI λέει ότι δεν αποδίδει πάντα καλύτερα - εν μέρει επειδή, σε αντίθεση με το GPT-4o, δεν μπορεί να αναζητήσει στο διαδίκτυο και δεν είναι πολυτροπικό, που σημαίνει ότι δεν μπορεί να αναλύσει εικόνες ή ήχο.

Η βελτίωση των ικανοτήτων συλλογισμού των LLM είναι εδώ και καιρό ένα καυτό θέμα στους ερευνητικούς κύκλους. Πράγματι, οι ανταγωνιστές ακολουθούν παρόμοιες ερευνητικές γραμμές. Τον Ιούλιο, η Google ανακοίνωσε το AlphaProof, ένα έργο που συνδυάζει γλωσσικά μοντέλα με ενισχυτική μάθηση για την επίλυση δύσκολων μαθηματικών προβλημάτων.

Το AlphaProof ήταν σε θέση να μάθει πώς να συλλογίζεται πάνω σε μαθηματικά προβλήματα κοιτάζοντας τις σωστές απαντήσεις. Μια βασική πρόκληση για τη διεύρυνση αυτού του είδους μάθησης είναι ότι δεν υπάρχουν σωστές απαντήσεις για όλα όσα μπορεί να συναντήσει ένα μοντέλο. Ο Chen λέει ότι η OpenAI πέτυχε στην κατασκευή ενός συστήματος συλλογισμού που είναι πολύ πιο γενικό. "Νομίζω ότι έχουμε κάνει κάποιες ανακαλύψεις εκεί- νομίζω ότι είναι μέρος του πλεονεκτήματός μας", λέει ο Chen. "Είναι στην πραγματικότητα αρκετά καλό στο συλλογισμό σε όλους τους τομείς".

Ο Noah Goodman, καθηγητής στο Στάνφορντ που έχει δημοσιεύσει εργασίες για τη βελτίωση των ικανοτήτων συλλογισμού των LLM, λέει ότι το κλειδί για μια πιο γενικευμένη εκπαίδευση μπορεί να περιλαμβάνει τη χρήση ενός "προσεκτικά υποκινούμενου γλωσσικού μοντέλου και χειροποίητων δεδομένων" για εκπαίδευση. Προσθέτει ότι το να μπορεί κανείς να ανταλλάσσει με συνέπεια την ταχύτητα των αποτελεσμάτων με μεγαλύτερη ακρίβεια θα ήταν μια "ωραία πρόοδος".

Ο Yoon Kim, επίκουρος καθηγητής στο MIT, λέει ότι ο τρόπος με τον οποίο τα LLM επιλύουν προβλήματα παραμένει προς το παρόν κάπως μυστηριώδης, και ακόμη και αν εκτελούν βήμα προς βήμα συλλογισμό, μπορεί να υπάρχουν βασικές διαφορές από την ανθρώπινη νοημοσύνη. Αυτό θα μπορούσε να είναι κρίσιμο καθώς η τεχνολογία χρησιμοποιείται ευρύτερα. "Αυτά είναι συστήματα που δυνητικά θα λαμβάνουν αποφάσεις που επηρεάζουν πολλούς, πολλούς ανθρώπους", λέει. "Το ευρύτερο ερώτημα είναι, χρειάζεται να είμαστε σίγουροι για το πώς ένα υπολογιστικό μοντέλο καταλήγει στις αποφάσεις;"

Η τεχνική που εισήγαγε σήμερα η OpenAI μπορεί επίσης να βοηθήσει στο να διασφαλιστεί ότι τα μοντέλα τεχνητής νοημοσύνης συμπεριφέρονται καλά. Η Murati λέει ότι το νέο μοντέλο έχει αποδειχθεί καλύτερο στο να αποφεύγει την παραγωγή δυσάρεστου ή δυνητικά επιβλαβούς περιεχομένου, συλλογιζόμενο για το αποτέλεσμα των ενεργειών του. "Αν σκεφτείτε τη διδασκαλία των παιδιών, μαθαίνουν πολύ καλύτερα να ευθυγραμμίζονται με συγκεκριμένους κανόνες, συμπεριφορές και αξίες όταν μπορούν να συλλογιστούν γιατί κάνουν κάτι συγκεκριμένο", λέει.

Ο Oren Etzioni, ομότιμος καθηγητής στο Πανεπιστήμιο της Ουάσινγκτον και διακεκριμένος ειδικός στην τεχνητή νοημοσύνη, λέει ότι είναι "απαραίτητο να επιτρέψουμε στα LLM να εμπλακούν σε πολυβηματική επίλυση προβλημάτων, να χρησιμοποιούν εργαλεία και να λύνουν σύνθετα προβλήματα". Προσθέτει, "Η καθαρή κλιμάκωση δεν θα το επιτύχει αυτό". Ο Etzioni λέει, ωστόσο, ότι υπάρχουν περαιτέρω προκλήσεις μπροστά. "Ακόμη και αν λυνόταν το θέμα του συλλογισμού, θα εξακολουθούσαμε να έχουμε την πρόκληση της ψευδαίσθησης και της πραγματικότητας".

Ο Chen της OpenAI λέει ότι η νέα προσέγγιση συλλογισμού που ανέπτυξε η εταιρεία δείχνει ότι η προώθηση της τεχνητής νοημοσύνης δεν χρειάζεται να κοστίζει τεράστια ποσά υπολογιστικής ισχύος. "Ένα από τα συναρπαστικά πράγματα σχετικά με το παράδειγμα είναι ότι πιστεύουμε πως θα μας επιτρέψει να παραδώσουμε νοημοσύνη φθηνότερα", λέει, "και νομίζω ότι αυτή είναι πραγματικά η βασική αποστολή της εταιρείας μας".

Πηγή: OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step