
2 Απριλίου 2026
Γνωρίστε το LLEMMA, την τεχνητή νοημοσύνη ανοικτού κώδικα με επίκεντρο τα μαθηματικά που ξεπερνά τους αντιπάλους της

Περίληψη άρθρου:
Οι ερευνητές εισήγαγαν το LLEMMA, ένα μεγάλο γλωσσικό μοντέλο (LLM) ανοικτού κώδικα που έχει σχεδιαστεί για την επίλυση μαθηματικών προβλημάτων. Το LLEMMA ξεπερνά σε επιδόσεις άλλα γλωσσικά μοντέλα που επικεντρώνονται στα μαθηματικά, όπως το Minerva της Google. Έχει κατασκευαστεί με βάση το Code Llama, μια προσαρμογή του μοντέλου Llama 2 της Meta, και έχει ρυθμιστεί λεπτομερώς στο Proof-Pile-2, ένα σύνολο δεδομένων που δημιουργήθηκε από τους ερευνητές. Σε πειράματα, το LLEMMA επέδειξε ανώτερες επιδόσεις σε μαθηματικά benchmarks και την ικανότητα χρήσης εργαλείων και απόδειξης τυπικών θεωρημάτων χωρίς πρόσθετη λεπτομερή ρύθμιση. Σε αντίθεση με το Minerva, το LLEMMA είναι ανοικτού κώδικα και οι ερευνητές έχουν διαθέσει όλα τα περιουσιακά στοιχεία τους για περαιτέρω έρευνα. Η ανάπτυξη εξειδικευμένων LLMs όπως το LLEMMA μπορεί να ενισχύσει τις δυνατότητες συλλογιστικής σε γλωσσικά μοντέλα και να εμπνεύσει νέα έρευνα σε τομείς όπως η μοντελοποίηση ανταμοιβής και η ενισχυτική μάθηση για συλλογιστική.
Κύρια σημεία του άρθρου:
- Οι ερευνητές παρουσιάζουν το LLEMMA, ένα μεγάλο γλωσσικό μοντέλο (LLM) ανοικτού κώδικα, σχεδιασμένο για την επίλυση μαθηματικών προβλημάτων.
- Το LLEMMA ξεπερνά σε επιδόσεις άλλα γλωσσικά μοντέλα που επικεντρώνονται στα μαθηματικά, συμπεριλαμβανομένου του Minerva της Google.
- Το LLEMMA δεν είναι ένας άψογος επιλύτης μαθηματικών προβλημάτων, αλλά αντιπροσωπεύει ένα σημαντικό βήμα προς την κατεύθυνση εξειδικευμένων μεγάλων γλωσσικών μοντέλων.
- Το LLEMMA βασίζεται στο Code Llama και τελειοποιήθηκε σε σύνολο δεδομένων Proof-Pile-2, το οποίο περιλαμβάνει επιστημονικές εργασίες, δεδομένα του διαδικτύου με μαθηματικά και μαθηματικό κώδικα.
- Το LLEMMA επιδεικνύει ανώτερες επιδόσεις σε μαθηματικά benchmarks και μπορεί να χρησιμοποιεί εργαλεία και να αποδεικνύει επίσημα θεωρήματα χωρίς πρόσθετη τελειοποίηση.
- Οι ερευνητές έδωσαν στη δημοσιότητα τα περιουσιακά στοιχεία του LLEMMA, συμπεριλαμβανομένων των μοντέλων, του συνόλου δεδομένων και του κώδικα για την επανάληψη των πειραμάτων.
Αναλυτικά το άρθρο:
Σε μια νέα δημοσίευση, ερευνητές από διάφορα πανεπιστήμια και η Eleuther AI, μια εταιρεία γνωστή για τα μοντέλα ανοιχτού κώδικα, παρουσιάζουν το LLEMMA, ένα μοντέλο μεγάλης γλώσσας (LLM) ανοιχτού κώδικα, ειδικά σχεδιασμένο για την επίλυση μαθηματικών προβλημάτων.
Το LLEMMA ξεπερνά σε επιδόσεις άλλα κορυφαία γλωσσικά μοντέλα που εστιάζουν στα μαθηματικά -συμπεριλαμβανομένου του Minerva της Google-, προσφέροντας μια ισχυρή πλατφόρμα για περαιτέρω έρευνα.
Παρόλο που το LLEMMA δεν είναι ένας άψογος επιλυτής μαθηματικών προβλημάτων, αντιπροσωπεύει ένα σημαντικό βήμα προς την ανάπτυξη εξειδικευμένων μεγάλων γλωσσικών μοντέλων και μπορεί να ωθήσει την έρευνα ΤΝ σε νέες κατευθύνσεις.
Μαθηματικά μοντέλα τελευταίας τεχνολογίας
Το LLEMMA έχει βασιστεί στο Code Llama, μια προσαρμογή του μοντέλου Llama 2 της Meta ανοικτού κώδικα, το οποίο έχει ρυθμιστεί με βάση σύνολα δεδομένων για συγκεκριμένους κώδικες. Οι ερευνητές ανέπτυξαν δύο εκδόσεις του μοντέλου, μία με 7 δισεκατομμύρια παραμέτρους και μία άλλη με 34 δισεκατομμύρια. Τα μοντέλα τελειοποιήθηκαν περαιτέρω σε Proof-Pile-2, ένα σύνολο δεδομένων που δημιούργησαν οι ερευνητές και αποτελείται από ένα μείγμα επιστημονικών άρθρων, διαδικτυακών δεδομένων με μαθηματικά και μαθηματικού κώδικα.
"Το LLEMMA έχει προ-εκπαιδευτεί σε μια ποικίλη κατανομή δεδομένων που σχετίζονται με τα μαθηματικά και δεν έχει ρυθμιστεί για μια συγκεκριμένη εργασία.
Ως εκ τούτου, αναμένουμε ότι το LLEMMA μπορεί να προσαρμοστεί σε πολλές άλλες εργασίες μέσω της τελειοποίησης ειδικά για την εργασία και της προτροπής λίγων βολών", γράφουν οι ερευνητές.
Στα πειράματά τους, οι ερευνητές διαπίστωσαν ότι το LLEMMA επέδειξε ανώτερες επιδόσεις σε σχέση με όλα τα γνωστά ανοικτά μοντέλα σε μαθηματικά benchmarks.
"Συμπεραίνουμε ότι η συνεχής προεκπαίδευση στο Proof-Pile-2 είναι αποτελεσματική για τη βελτίωση της ικανότητας ενός προεκπαιδευμένου μοντέλου να εκτελεί μαθηματική επίλυση προβλημάτων", γράφουν.
Επιπλέον, το LLEMMA παρουσιάζει την ικανότητα να χρησιμοποιεί εργαλεία και να αποδεικνύει επίσημα θεωρήματα χωρίς πρόσθετη τελειοποίηση. Μπορεί να αξιοποιήσει υπολογιστικά εργαλεία, όπως ο διερμηνέας Python και οι τυπικοί αποδεικτές θεωρημάτων, για την επίλυση μαθηματικών προβλημάτων. Η χρήση εργαλείων μπορεί να ενισχύσει περαιτέρω τις δυνατότητες επίλυσης προβλημάτων του μοντέλου παρέχοντας μια εξωτερική πηγή γνώσης για την επαλήθευση και τη διόρθωση των απαντήσεών του.
Παροχή εργαλείων για περαιτέρω έρευνα
Ενώ αρκετά μεγάλα γλωσσικά μοντέλα έχουν ρυθμιστεί λεπτομερώς για τα μαθηματικά, το Minerva της Google, που βασίζεται στο μοντέλο PaLM, ξεχωρίζει. Ωστόσο, δεν είναι ανοικτού κώδικα.
Το LLEMMA, από την άλλη πλευρά, ξεπερνά το Minerva σε "βάση ισοδύναμων παραμέτρων". Αυτό σημαίνει ότι το LLEMMA-7B ξεπερνά το Minerva-8B και το LLEMMA-34B είναι σχεδόν ισότιμο με το Minerva-62B.
Οι ερευνητές απελευθέρωσαν όλα τα περιουσιακά τους στοιχεία. Αυτό περιλαμβάνει τα μοντέλα 7 και 34 δισεκατομμυρίων παραμέτρων, το σύνολο δεδομένων Proof-Pile-2 και τον κώδικα για την αναπαραγωγή των πειραμάτων τους. Το Proof-Pile-2 περιλαμβάνει το AlgebraicStack, ένα νέο σύνολο δεδομένων με 11 δισεκατομμύρια μάρκες κώδικα που σχετίζονται ειδικά με τα μαθηματικά.
Σύμφωνα με τους ερευνητές, το LLEMMA είναι το πρώτο μοντέλο ανοικτού κώδικα που ανταποκρίνεται στις επιδόσεις των σύγχρονων μοντέλων κλειστού κώδικα. Αυτό επιτρέπει σε άλλους ερευνητές να βασιστούν σε αυτό και να βελτιώσουν περαιτέρω το έργο.
"Ελπίζουμε ότι το LLEMMA και το Proof-Pile-2 θα αποτελέσουν μια χρήσιμη βάση για μελλοντικές εργασίες σχετικά με την κατανόηση της γενίκευσης των γλωσσικών μοντέλων και τη σύνθεση συνόλων δεδομένων, τη διερεύνηση των ορίων των γλωσσικών μοντέλων ειδικών τομέων, τη χρήση των γλωσσικών μοντέλων ως εργαλείων για τους μαθηματικούς και τη βελτίωση των μαθηματικών δυνατοτήτων των γλωσσικών μοντέλων", γράφουν οι ερευνητές.
Ο ευρύτερος αντίκτυπος των LLM με επίκεντρο τα μαθηματικά
Το LLEMMA αποτελεί μέρος μιας ευρύτερης πρωτοβουλίας για την ανάπτυξη LLMs που εξειδικεύονται σε έναν συγκεκριμένο τομέα, αντί για ένα γενικό μοντέλο ικανό να εκτελεί πολλαπλά καθήκοντα. Το μοντέλο LLEMMA αποδεικνύει ότι με βελτιωμένα δεδομένα και μεγαλύτερα σύνολα δεδομένων, τα μικρότερα μοντέλα μπορούν ακόμη να αποδώσουν σημαντικά αποτελέσματα. Για παράδειγμα, το LLEMMA-7B ξεπερνά τον κώδικα Llama-34B σε όλα σχεδόν τα σύνολα δεδομένων μαθηματικής συλλογιστικής.
Οι ερευνητές σημειώνουν ότι "ένα γλωσσικό μοντέλο ειδικού τομέα μπορεί να προσφέρει ανώτερες δυνατότητες για δεδομένο υπολογιστικό κόστος ή χαμηλότερο υπολογιστικό κόστος για δεδομένο επίπεδο δυνατοτήτων". Αυτό συνάδει με άλλες έρευνες που δείχνουν ότι τα μικρά μοντέλα μπορούν να συνεχίσουν να βελτιώνονται όταν εκπαιδεύονται σε ένα πολύ μεγάλο σύνολο δεδομένων που αποτελείται από παραδείγματα υψηλής ποιότητας.
Η καταλληλότητα των LLM για την επίλυση μαθηματικών προβλημάτων έχει αποτελέσει θέμα εκτεταμένης συζήτησης. Η μέτρηση των συλλογιστικών ικανοτήτων των LLMs είναι πολύ δύσκολη. Συχνά, τα μοντέλα σημειώνουν υψηλή βαθμολογία στα μαθηματικά κριτήρια αναφοράς λόγω "μόλυνσης των δεδομένων", όπου τα παραδείγματα δοκιμής συμπεριλήφθηκαν στα δεδομένα εκπαίδευσης, πράγμα που ουσιαστικά σημαίνει ότι το μοντέλο έχει απομνημονεύσει τις απαντήσεις. Υπάρχουν επίσης μελέτες που δείχνουν ότι ένα LLM μπορεί να δώσει διαφορετικές απαντήσεις στην ίδια ερώτηση όταν αυτή διατυπώνεται με ελαφρώς διαφορετικούς τρόπους. Και ορισμένοι επιστήμονες υποστηρίζουν ότι τα LLM είναι θεμελιωδώς ακατάλληλα για τα μαθηματικά λόγω της στοχαστικής τους φύσης.
Οι προγραμματιστές του LLEMMA έλαβαν σχολαστικά μέτρα για να επαληθεύσουν αν τα παραδείγματα αναφοράς περιλαμβάνονταν στα δεδομένα εκπαίδευσης. Ενώ βρήκαν παρόμοια παραδείγματα στα δεδομένα εκπαίδευσης και δοκιμής, κατέληξαν στο συμπέρασμα ότι "μια μη τετριμμένη αντιστοιχία μεταξύ ενός παραδείγματος δοκιμής και ενός εγγράφου εκπαίδευσης δεν σημαίνει ότι το μοντέλο παρήγαγε μια απομνημονευμένη σωστή απάντηση".
Η πρόοδος στην ανάπτυξη LLM που μπορούν να επιλύουν αξιόπιστα μαθηματικά προβλήματα μπορεί να ενισχύσει τις δυνατότητες συλλογισμού και σχεδιασμού των γλωσσικών μοντέλων. Τα επιτεύγματα του LLEMMA, ιδίως δεδομένης της απελευθέρωσης των μοντέλων και του κώδικα, μπορούν επίσης να ωφελήσουν άλλα πεδία με την εξειδίκευση των LLM για διαφορετικούς τομείς.
Οι ερευνητές προτείνουν ότι "η επίλυση μαθηματικών προβλημάτων απαιτεί την αντιστοίχιση προτύπων με ένα μεγάλο σώμα εξειδικευμένης προηγούμενης γνώσης, αποτελώντας έτσι ένα ιδανικό περιβάλλον για την προσαρμογή σε τομείς". Ακόμα και αν τα LLM δεν γίνουν τα απόλυτα εργαλεία για την επίλυση μαθηματικών προβλημάτων, μπορούν να αποτελέσουν τη βάση για άλλους τύπους μοντέλων και για την έρευνα της τεχνητής νοημοσύνης.
Οι ερευνητές πιστεύουν επίσης ότι "τα γλωσσικά μοντέλα που είναι ικανά για ισχυρή μαθηματική συλλογιστική είναι προπορευόμενα μιας σειράς ερευνητικών θεμάτων, όπως η μοντελοποίηση ανταμοιβής, η ενισχυτική μάθηση για συλλογιστική και η αλγοριθμική συλλογιστική". Θα είναι ενδιαφέρον να δούμε τι είδους νέα έρευνα θα μπορούσε να εμπνεύσει το LLEMMA.
Πηγή:Meet LLEMMA, the math-focused open source AI that outperforms rivals






