Παράθυρα πλαισίου 100M Token

02/09/2024 | |

Περίληψη του άρθρου:

Εξετάζονται οι εξελίξεις στην κατάρτιση των μοντέλων τεχνητής νοημοσύνης μέσω πλαισίων μακροχρόνιας μνήμης (LTM), υπογραμμίζοντας τα οφέλη και τις εφαρμογές τους στην ανάπτυξη λογισμικού. Υπογραμμίζει ένα πρόσφατο μοντέλο, LTM-2-Mini, το οποίο επεξεργάζεται αποτελεσματικά εκτεταμένα δεδομένα κώδικα με μειωμένες απαιτήσεις πόρων σε σύγκριση με τις παραδοσιακές μεθόδους. Η συνεργασία με το Google Cloud και το NVIDIA στοχεύει στην ενίσχυση των υπολογιστικών δυνατοτήτων για το AI, εστιάζοντας στην υπεύθυνη προώθηση της τεχνολογίας AI παράλληλα με τα μέτρα ασφαλείας.

Κύρια σημεία του άρθρου:

Δύο πρωταρχικές μέθοδοι για την εκμάθηση μοντέλων τεχνητής νοημοσύνης: Εκπαίδευση και Συμπέρασμα.
Τρέχουσα κυριαρχία της εκπαίδευσης λόγω του σχετικά πρόσφατου πλαισίου ανάπτυξης του AI.
Μοντέλα μακροχρόνιας μνήμης (LTM) εκπαιδευμένα να εξετάσουν έως και 100 εκατομμύρια tokens κατά τη διάρκεια των συμπερασμάτων, ενισχύοντας την ευαισθητοποίηση του περιβάλλοντος.
Εστίαση σε πρακτικές εφαρμογές μοντέλων πλαισίων ειδικά στην ανάπτυξη λογισμικού.
Σημασία της παροχής πλήρους πλαισίου, συμπεριλαμβανομένων των εσωτερικών βιβλιοθηκών και της τεκμηρίωσης, για καλύτερη δημιουργία κώδικα.
Οι μέθοδοι αξιολόγησης για μακροπρόθεσμα πλαίσια, όπως η "needle Eval in a Haystack", δεν είναι βέλτιστες.

Αναλυτικά το άρθρο:

Υπάρχουν σήμερα δύο τρόποι για να μαθαίνουν τα μοντέλα τεχνητής νοημοσύνης: εκπαίδευση και συμπερασματολογία.Μέχρι τώρα κυριαρχούσε η εκπαίδευση, επειδή τα συμφραζόμενα είναι σχετικά σύντομα. Αλλά το εξαιρετικά μακρύ πλαίσιο θα μπορούσε να το αλλάξει αυτό.

Αντί να βασίζονται στην ασαφή απομνημόνευση, τα μοντέλα μας LTM (Long-Term Memory) εκπαιδεύονται να συλλογίζονται σε έως και 100M tokens του πλαισίου που τους δίνονται κατά τη διάρκεια της συμπερασματολογίας.

Ενώ οι εμπορικές εφαρμογές αυτών των μοντέλων υπερ-μακράς διάρκειας πλαισίου είναι πολλές, στη Magic επικεντρωνόμαστε στον τομέα της ανάπτυξης λογισμικού.
Είναι εύκολο να φανταστείτε πόσο καλύτερη θα ήταν η σύνθεση κώδικα αν τα μοντέλα είχαν όλο τον κώδικα, την τεκμηρίωση και τις βιβλιοθήκες σας σε πλαίσιο, συμπεριλαμβανομένων και εκείνων που δεν βρίσκονται στο δημόσιο διαδίκτυο.

Αξιολόγηση των παραθύρων πλαισίου

Οι σημερινές μακροχρόνιες αξιολογήσεις πλαισίου δεν είναι εξαιρετικές. Η δημοφιλής eval Needle In A Haystack τοποθετεί ένα τυχαίο γεγονός («needle») στη μέση του μεγάλου παραθύρου περιβάλλοντος («Haystack») και ζητά από το μοντέλο να ανακτήσει το γεγονός. Ωστόσο, το «Arun and Max having coffee at Blue Bottle» ξεχωρίζει σε ένα μυθιστόρημα μυθοπλασίας για φάλαινες. Μαθαίνοντας να αναγνωρίζει την ασυνήθιστη φύση της «βελόνας», το μοντέλο μπορεί να αγνοήσει τις κατά τα άλλα σχετικές πληροφορίες στο «άχυρο», μειώνοντας την απαιτούμενη χωρητικότητα αποθήκευσης σε μικρότερη από ό,τι θα ήταν σε πραγματικές εργασίες. Απαιτείται επίσης προσοχή μόνο σε ένα μικροσκοπικό, σημασιολογικά αναγνωρίσιμο μέρος του πλαισίου, επιτρέποντας ακόμη και σε μεθόδους όπως η RAG να εμφανίζονται επιτυχείς.

Το μέτρο σύγκρισης επαγωγικών κεφαλών της Mamba (ενότητα 4.1.2) και της H3 (παράρτημα E.1) το κάνει ακόμη πιο εύκολο. Χρησιμοποιούν (και εκπαιδεύονται με) ένα ειδικό token που σηματοδοτεί ρητά την έναρξη της βελόνας, αποδυναμώνοντας τη δυσκολία αποθήκευσης και ανάκτησης της eval σε O(1). Αυτό είναι σαν να ξέρετε ποια ερώτηση θα προκύψει σε μια εξέταση πριν αρχίσετε να διαβάζετε.

Αυτές οι ανεπαίσθητες ατέλειες αποδυναμώνουν τις τρέχουσες evals μεγάλου πλαισίου με τρόπους που επιτρέπουν στα παραδοσιακά Αναδρομικά Νευρωνικά Δίκτυα (RNN) και στα Μοντέλα Χώρου Καταστάσεων (SSM) να σημειώνουν καλά αποτελέσματα παρά το θεμελιωδώς περιοριστικό, μικρό διάνυσμα κατάστασης μεγέθους O(1).
Για να εξαλείψουμε αυτές τις έμμεσες και ρητές σημασιολογικές υποδείξεις, σχεδιάσαμε το HashHop.

Οι κατακερματισμοί είναι τυχαίοι και συνεπώς ασυμπίεστοι, απαιτώντας από το μοντέλο να είναι σε θέση να αποθηκεύει και να ανακαλεί από το μέγιστο δυνατό περιεχόμενο πληροφορίας για ένα δεδομένο μέγεθος πλαισίου ανά πάσα στιγμή. αυτό μετρά την εμφάνιση των κεφαλών επαγωγής ενός βήματος, αλλά οι πρακτικές εφαρμογές συχνά απαιτούν πολλαπλά άλματα. Εικόνα αναθέσεις μεταβλητών ή εισαγωγές βιβλιοθηκών στην κωδικοποιημένη βάση σας. αυτό απαιτεί η αρχιτεκτονική του μοντέλου να είναι σε θέση να παρακολουθεί και να μεταπηδά σε πολλαπλά σημεία ολόκληρου του πλαισίου στο λανθάνοντα χώρο με μία κίνηση.

Εκτός από την αξιολόγηση των μοντέλων σε κώδικα και γλώσσα, διαπιστώσαμε ότι η εκπαίδευση μικρών μοντέλων σε κατακερματισμούς και η μέτρηση των επιδόσεων σε αυτές τις εργασίες-παιχνίδια ήταν ένα χρήσιμο εργαλείο για την έρευνα της αρχιτεκτονικής μας.
Αν θέλετε να χρησιμοποιήσετε το HashHop, μπορείτε να το βρείτε στο GitHub.

Εκπαιδεύσαμε πρόσφατα το πρώτο μας μοντέλο πλαισίου 100M token: LTM-2-mini. 100M tokens ισοδυναμούν με ~10 εκατομμύρια γραμμές κώδικα ή ~750 novels. Με την επιλογή των υπερπαραμέτρων μας για το συγκεκριμένο μοντέλο, βλέπουμε επιδείνωση της απόδοσης όταν δοκιμάζουμε 3 ή περισσότερα hops χωρίς αλυσίδα σκέψης, αλλά για 2 hops ταυτόχρονα (Hash 1 → Hash 3), χωρίς αλυσίδα σκέψης, βλέπουμε ισχυρά αποτελέσματα, υποδεικνύοντας ότι το μοντέλο είναι σε θέση να κατασκευάσει πιο σύνθετα κυκλώματα από τις απλές επαγωγικές κεφαλές:

Για κάθε αποκωδικοποιημένο token, ο αλγόριθμος διαστάσεων ακολουθίας του LTM-2-mini είναι περίπου 1000 φορές φθηνότερος από τον μηχανισμό προσοχής στο Llama 3.1 405B1 για ένα παράθυρο πλαισίου 100M token.

Η αντίθεση στις απαιτήσεις μνήμης είναι ακόμη μεγαλύτερη - η εκτέλεση του Llama 3.1 405B με ένα πλαίσιο συμβόλων 100M απαιτεί 638 H100 ανά χρήστη μόνο για την αποθήκευση μίας μόνο κρυφής μνήμης KV συμβόλων 100M.2 Αντίθετα, το LTM απαιτεί ένα μικρό κλάσμα της HBM ενός μόνο H100 ανά χρήστη για το ίδιο πλαίσιο.

Πλαίσιο GUI εντός πλαισίου

Το μοντέλο μας δημιούργησε με επιτυχία μια αριθμομηχανή χρησιμοποιώντας ένα προσαρμοσμένο in-context πλαίσιο GUI, επιδεικνύοντας την ικανότητά του για μάθηση σε πραγματικό χρόνο. Αν και η δημιουργία μιας αριθμομηχανής είναι μια απλή εργασία για τα μοντέλα τελευταίας τεχνολογίας όταν χρησιμοποιούν γνωστά πλαίσια όπως το React, η χρήση ενός προσαρμοσμένου πλαισίου εντός πλαισίου είναι πιο δύσκολη. Το μοντέλο προτρέπεται μόνο με τη βάση κώδικα και τη συνομιλία (χωρίς ανοιχτά αρχεία, ιστορικό επεξεργασίας ή άλλους δείκτες).

Το μοντέλο μας ήταν σε θέση να υλοποιήσει έναν μετρητή ισχύος κωδικού πρόσβασης για το repository ανοικτού κώδικα Documenso χωρίς ανθρώπινη παρέμβαση. Η περιγραφή του προβλήματος είναι πιο συγκεκριμένη από ό,τι θα περιμέναμε να είναι σε ένα πραγματικό σενάριο και το χαρακτηριστικό είναι κοινό σε πολλές εφαρμογές ιστού. Χτίζουμε τους επόμενους δύο υπερυπολογιστές μας στο Google Cloud: Magic-G4, που τροφοδοτείται από NVIDIA H100 Tensor Core GPUs, και Magic-G5, που τροφοδοτείται από NVIDIA GB200 NVL72, με δυνατότητα κλιμάκωσης σε δεκάδες χιλιάδες Blackwell GPUs με την πάροδο του χρόνου.

«Είμαστε ενθουσιασμένοι που συνεργαζόμαστε με την Google και την NVIDIA για την κατασκευή του υπερυπολογιστή AI επόμενης γενιάς στο Google Cloud. Το σύστημα GB200 NLV72 της NVIDIA θα βελτιώσει σημαντικά την αποτελεσματικότητα της εξαγωγής συμπερασμάτων και της εκπαίδευσης των μοντέλων μας, ενώ το Google Cloud μας προσφέρει το ταχύτερο χρονοδιάγραμμα για την κλιμάκωση και ένα πλούσιο οικοσύστημα υπηρεσιών cloud». - Eric Steinberger, Διευθύνων Σύμβουλος και συνιδρυτής της Magic:

«Η end-to-end πλατφόρμα AI του Google Cloud παρέχει σε εταιρείες υψηλής ανάπτυξης και ταχείας εξέλιξης όπως η Magic πλήρεις δυνατότητες υλικού και λογισμικού για την κατασκευή μοντέλων και εφαρμογών AI σε κλίμακα. Μέσω αυτής της συνεργασίας, η Magic θα χρησιμοποιήσει τις υπηρεσίες της πλατφόρμας AI του Google Cloud, συμπεριλαμβανομένων μιας σειράς κορυφαίων τσιπ της NVIDIA και εργαλείων AI από την Vertex AI, για να κατασκευάσει και να εκπαιδεύσει την επόμενη γενιά μοντέλων της και να φέρει τα προϊόντα της στην αγορά πιο γρήγορα». - Amin Vahdat, αντιπρόεδρος και GM του ML, Services και Cloud AI στο Google Cloud:

«Ο σημερινός και μελλοντικός αντίκτυπος της τεχνητής νοημοσύνης τροφοδοτείται σε μεγάλο βαθμό από την ανάπτυξη όλο και πιο ικανών μεγάλων γλωσσικών μοντέλων. Ο υπερυπολογιστής Magic-G5 στο Google Cloud, ο οποίος τροφοδοτείται από μία από τις μεγαλύτερες μέχρι σήμερα εγκαταστάσεις του σχεδιασμού NVIDIA GB200 NVL72 σε κλίμακα rack, θα παρέχει στη Magic τους υπολογιστικούς πόρους που απαιτούνται για την εκπαίδευση, την ανάπτυξη και την κλιμάκωση μεγάλων γλωσσικών μοντέλων - και θα διευρύνει τα όρια του τι μπορεί να επιτύχει η Τεχνητή Νοημοσύνη.» - Ian Buck, αντιπρόεδρος του τμήματος Hyperscale και HPC της NVIDIA.

Νέα χρηματοδότηση

Έχουμε αντλήσει συνολικά 465 εκατ. δολάρια, συμπεριλαμβανομένης μιας πρόσφατης επένδυσης ύψους 320 εκατ. δολαρίων από νέους επενδυτές, μεταξύ άλλων τους Eric Schmidt, Jane Street, Sequoia, Atlassian, καθώς και από υφιστάμενους επενδυτές Nat Friedman & Daniel Gross, Elad Gil και CapitalG.

Εγγραφείτε μαζί μας

Η προ-εκπαίδευση φτάνει μόνο μέχρις ενός σημείου- πιστεύουμε ότι ο υπολογισμός σε χρόνο συμπερασμού είναι το επόμενο σύνορο στην τεχνητή νοημοσύνη. Φανταστείτε να μπορούσατε να ξοδέψετε 100 δολάρια και 10 λεπτά σε ένα ζήτημα και να λάβετε αξιόπιστα ένα εξαιρετικό pull request για ένα ολόκληρο χαρακτηριστικό. Αυτός είναι ο στόχος μας.

Για να εκπαιδεύσουμε και να εξυπηρετήσουμε 100M μοντέλα token context, χρειάστηκε να γράψουμε μια ολόκληρη στοίβα εκπαίδευσης και συμπερασματολογίας από το μηδέν (χωρίς torch autograd, πολλά προσαρμοσμένα CUDA) και να κάνουμε το ένα πείραμα μετά το άλλο για το πώς να εκπαιδεύσουμε σταθερά τα μοντέλα μας. Ο υπολογισμός του χρόνου εξαγωγής συμπερασμάτων είναι ένα εξίσου δύσκολο έργο.

Είμαστε 23 άτομα (+ 8000 H100s) και προσλαμβάνουμε περισσότερους μηχανικούς και ερευνητές για να επιταχύνουμε το έργο μας και να αναπτύξουμε τα επερχόμενα μοντέλα.

Με την πάροδο του χρόνου, θα επεκταθούμε σε δεκάδες χιλιάδες GB200s. Προσλαμβάνουμε μηχανικούς υπερυπολογιστών και συστημάτων για να εργαστούν μαζί με τον Ben Chess (πρώην επικεφαλής υπερυπολογιστών του OpenAI).

Η επαρκώς προηγμένη τεχνητή νοημοσύνη θα πρέπει να αντιμετωπίζεται με την ίδια ευαισθησία όπως η πυρηνική βιομηχανία. Εκτός από τις δεσμεύσεις μας για τυποποιημένες δοκιμές ασφαλείας, θέλουμε η Magic να είναι εξαιρετική στην κυβερνοασφάλεια και να πιέζει για υψηλότερα ρυθμιστικά πρότυπα. Προσλαμβάνουμε έναν επικεφαλής ασφάλειας για να ηγηθεί αυτής της προσπάθειας.

Πηγή: 100M Token Context Windows