Οι μετασχηματιστές διάχυσης είναι το κλειδί πίσω από το Sora της OpenAI - και πρόκειται να ανατρέψουν τη GenAI

Περίληψη άρθρου:
Το Sora της OpenAI παρουσιάζει την αιχμή του δόρατος GenAI με τον μετασχηματιστή διάχυση, ένα μοντέλο που συνδυάζει τη διάχυση και τους παραγωγούς μετασχηματιστές για την ενίσχυση της μέσων. Το Sora και το Stable Diffusion 3.0 αξιοποιούν αυτή την καινοτομία για βελτιωμένη επεκτασιμότητα και αποδοτικότητα, σηματοδοτώντας τη στροφή από τα U-Nets στους μετασχηματιστές στον τομέα του GenAI. Ο Xie προβλέπει περαιτέρω ενσωμάτωση της κατανόησης και της δημιουργίας περιεχομένου μέσω μετασχηματιστών διάχυσης, προαναγγέλλοντας ένα συναρπαστικό μέλλον για τις δηλώσεις της ΤΝ.
Κύρια σημεία του άρθρου:
- Το Sora από το OpenAI είναι μια αξιοσημείωτη επίδειξη της πρωτοποριακής τεχνολογίας GenAI, που χρησιμοποιεί την αρχιτεκτονική του μοντέλου τεχνητή νοημοσύνη του μετασχηματιστή διάχυσης.
- Ο μετασχηματιστής διάχυσης αναπτύχθηκε από τους Saining Xie και William Peebles, συνδυάζοντας τις έννοιες της διάχυσης και του μετασχηματιστή στη μηχανική μάθηση.
- Τα μοντέλα διάχυσης μετακινήσεων το θόρυβο για να τον αφαιρέσουν σταδιακά από ένα κομμάτι του μέσου για να φτάσουν σε έναν στόχο εξόδου.
- Οι μετασχηματιστές αντικαθιστούν τα U-Nets στα μοντέλα διάχυσης, παρέχοντας πλεονεκτήματα αποδοτικότητας και απόδοσης λόγω του μηχανισμού προσοχής τους.
- Η επεκτασιμότητα και η αποτελεσματικότητα των μοντέλων διάχυσης όπως το Sora έχουν βελτιωθεί σημαντικά με τη χρήση μετασχηματιστών σε κλίμακα.
- Η μετάβαση από τα U-Nets στους μετασχηματιστές στα μοντέλα διάχυσης έχει αναδειχθεί από έργα όπως το Sora και το Stable Diffusion 3.0.
Αναλυτικά το άρθρο:
Το Sora της OpenAI, το οποίο μπορεί να παράγει βίντεο και διαδραστικά τρισδιάστατα περιβάλλοντα εν κινήσει, είναι μια αξιοσημείωτη επίδειξη της αιχμής του GenAI - ένα πραγματικό ορόσημο.
Όμως, περιέργως, μία από τις καινοτομίες που οδήγησαν σε αυτό, μια αρχιτεκτονική μοντέλου ΤΝ, γνωστή στην καθομιλουμένη ως μετασχηματιστής διάχυσης, έφτασε στη σκηνή της έρευνας ΤΝ πριν από χρόνια.
Ο μετασχηματιστής διάχυσης, ο οποίος τροφοδοτήθηκε επίσης τη νεότερη γεννήτρια εικόνων της νεοσύστατης εταιρείας AI Stability AI, Stable Diffusion 3.0, φαίνεται ότι είναι έτοιμος να μεταμορφώσει τον τομέα του GenAI, επιτρέποντας στα μοντέλα GenAI να επεκταθούν πέρα από ό,τι ήταν δυνατό στο παρελθόν.
Ο Saining Xie, καθηγητής πληροφορικής στο NYU, ξεκίνησε το ερευνητικό έργο που οδήγησε στον μετασχηματιστή διάχυση τον Ιούνιο του 2022. Μαζί με τον William Peebles, τον μαθητευόμενο του όταν ο Peebles έκανε την πρακτική του άσκηση στο ερευνητικό εργαστήριο τεχνητής νοημοσύνης της Meta και τώρα συν -επικεφαλής του Sora στο OpenAI, ο Xie συνδύασε δύο έννοιες της μηχανικής μάθησης - τη διάχυση και τον μετασχηματιστή - για να δημιουργήσει τον μετασχηματιστή διάχυση.
Οι περισσότερες σύγχρονες γεννήτριες πολυμέσων με τεχνητή νοημοσύνη, συμπεριλαμβανομένης της DALL-E 3 του OpenAI, βασίζονται σε μια διαδικασία που ονομάζεται διάχυση για την παραγωγή εικόνων, βίντεο, ομιλίας, μουσικής, τρισδιάστατων πλεγμάτων, έργων τέχνης και άλλων.
Δεν είναι η πιο διαισθητική ιδέα, αλλά βασικά, ο θόρυβος προστίθεται αργά σε ένα κομμάτι των μέσων - ας πούμε σε μια εικόνα - μέχρι να γίνει αγνώριστο. Αυτό επαναλαμβάνεται για να δημιουργηθεί ένα σύνολο δεδομένων από θορυβώδη μέσα.
Όταν ένα μοντέλο διάχυσης εκπαιδεύεται σε αυτό, μαθαίνει πώς να αφαιρέσει σταδιακά το θόρυβο, πλησιάζοντας βήμα προς βήμα σε ένα κομμάτι μέσου εξόδου-στόχο (π.χ. μια νέα εικόνα).
Τα μοντέλα διάχυσης έχουν συνήθως μια "ραχοκοκαλιά", ή ένα είδος μηχανής, που ονομάζεται U-Net. Η ραχοκοκαλιά του U-Net μαθαίνει να εκτιμά τον θόρυβο που πρέπει να αφαιρεθεί - και το κάνει καλά. Αλλά τα U-Net είναι πολύπλοκα, με ειδικά σχεδιασμένες ενότητες που μπορούν να επιβραδυνθούν δραματικά τον αγωγό διάχυσης.
Ευτυχώς, οι μετασχηματιστές μπορούν να αντικαταστήσουν τα U-Nets - και να προσφέρουν μια αύξηση της αποδοτικότητας και της απόδοσης κατά τη διαδικασία.
Οι μετασχηματιστές είναι η αρχιτεκτονική για σύνθετες εργασίες συλλογισμού, τροφοδοτώντας μοντέλα όπως το GPT-4, το Gemini και το ChatGPT. αρκετά μοναδικά χαρακτηριστικά, αλλά μακράν το καθοριστικό χαρακτηριστικό των μετασχηματιστών είναι ο "μηχανισμός προσοχής" τους. Για κάθε κομμάτι δεδομένων εισόδου (στην περίπτωση της διάχυσης, ο θόρυβος της εικόνας), οι μετασχηματιστές σταθμίζουν τη συνάφεια κάθε άλλης εισόδου (άλλος θόρυβος σε μια εικόνα) και αντλούν από αυτά για να δημιουργήσουν την έξοδο (μια εκτίμηση του θορύβου της εικόνας).
Ο μηχανισμός προσοχής όχι μόνο καθιστά τους μετασχηματιστές απλούστερους από άλλες αρχιτεκτονικές μοντέλων, αλλά καθιστά την αρχιτεκτονική παραλληλοποιήσιμη. Με άλλα λόγια, πολλά και μεγαλύτερα μοντέλα μετασχηματιστών μπορούν να εκπαιδευτούν με σημαντική αλλά όχι ανέφικτη αύξηση του υπολογισμού του.
«Αυτό που συνεισφέρουν οι μετασχηματιστές στη διαδικασία διάχυσης μοιάζει με την αναβάθμιση του κινητήρα», δήλωσε ο Xie στο TechCrunch σε συνέντευξη μέσω ηλεκτρονικού ταχυδρομείου. "Η εισαγωγή των μετασχηματιστών ... σηματοδοτεί ένα σημαντικό άλμα στην επεκτασιμότητα και την αποτελεσματικότητα. Αυτό είναι ιδιαίτερα εμφανές σε μοντέλα όπως το Sora, τα οποία επωφελούνται από την εκπαίδευση σε τεράστιους όγκους δεδομένων βίντεο και αξιοσημείωτα εκτεταμένα παραμέτρους των μοντέλων για να αναδείξουν τις μετασχηματιστικές δυνατότητες των μετασχηματιστών όταν εφαρμόζονται σε κλίμακα».
Δεδομένου λοιπόν ότι η ιδέα για τους μετασχηματιστές διάχυσης υπάρχει εδώ και καιρό, γιατί χρειάστηκε χρόνια μέχρι έργα όπως το Sora και το Stable Diffusion να αρχίσουν να τους αξιοποιούν; Ο Xie πιστεύει ότι η σημασία της ύπαρξης ενός κλιμακούμενου μοντέλου κορμού δεν ήρθε στο φως μέχρι σχετικά πρόσφατα.
"Η ομάδα της Sora πραγματικά ξεπέρασε κάθε όριο για να δείξει πόσα περισσότερα μπορείς να κάνεις με αυτή την προσέγγιση σε μεγάλη κλίμακα", είπε. «Έκαναν λίγο πολύ σαφές ότι τα U-Nets είναι εκτός και οι μετασχηματιστές είναι μέσα στα μοντέλα διάχυσης από εδώ και πέρα».
Οι μετασχηματιστές διάχυσης θα πρέπει να είναι μια απλή αντικατάσταση για τα υπάρχοντα μοντέλα διάχυσης, λέει ο Xie - είτε τα μοντέλα παράγουν εικόνες, βίντεο, ήχο είτε κάποια άλλη μορφή μέσων. Η τρέχουσα διαδικασία εκπαίδευσης των μετασχηματιστών διάχυσης μπορεί να εισαγάγει κάποια αναποτελεσματικότητα και απώλεια επιδόσεων, αλλά ο Xie πιστεύει ότι αυτό μπορεί να αντιμετωπιστεί σε μακροπρόθεσμο ορίζοντα.
«Το κύριο συμπέρασμα είναι αρκετά απλό: τα U-Nets και τα στραφείτε στους μετασχηματιστές, επειδή είναι ταχύτεροι, λειτουργούν καλύτερα και είναι πιο επεκτάσιμοι», δήλωσε. Προς το παρόν, αυτοί είναι σαν δύο διαφορετικοί κόσμοι - ένας για την κατανόηση και ένας άλλος για τη δημιουργία. ενοποιημένες και πιστεύω ότι η εφαρμογή αυτής της τυποποίησης των υποκείμενων αρχιτεκτονικών, με τους μετασχηματιστές να είναι καλύτεροι υποψήφιοι για το σκοπό αυτό».
Αν το Sora και το Stable Diffusion 3.0 είναι μια προεπισκόπηση του τι να περιμένουμε με τους μετασχηματιστές διάχυσης, θα έλεγα ότι έχουμε μια άγρια βόλτα.
