Το σύστημα μηχανικής μάθησης με βάση το φως θα μπορούσε να αποδώσει πιο ισχυρά, αποδοτικά μεγάλα γλωσσικά μοντέλα

30/08/2023 | |

Περίληψη άρθρου:
Ερευνητές από το MIT ανέπτυξαν ένα σύστημα που χρησιμοποιεί φως αντί για ηλεκτρόνια για την εκτέλεση υπολογισμών μηχανικής μάθησης, δημιουργώντας ενδεχομένως προγράμματα μηχανικής μάθησης που είναι σημαντικά πιο ισχυρά και ενεργειακά αποδοτικά από τα σημερινά μοντέλα. Το σύστημα, το οποίο χρησιμοποιεί εκατοντάδες λέιζερ κλίμακας μικρομέτρων, επέδειξε πάνω από 100 φορές βελτίωση στην ενεργειακή απόδοση και 25 φορές βελτίωση στην υπολογιστική πυκνότητα σε σύγκριση με τους τελευταίας τεχνολογίας ψηφιακούς υπολογιστές. Οι ερευνητές πιστεύουν ότι η μέθοδος αυτή θα μπορούσε να επιτρέψει στα κινητά τηλέφωνα και άλλες μικρές συσκευές να εκτελούν προγράμματα που σήμερα περιορίζονται σε μεγάλα κέντρα δεδομένων. Τα στοιχεία του συστήματος μπορούν να κατασκευαστούν με τη χρήση υφιστάμενων διαδικασιών, γεγονός που υποδηλώνει ότι η εμπορική χρήση μπορεί να είναι δυνατή μέσα σε λίγα χρόνια.

Κύρια σημεία του άρθρου:

Οι ερευνητές του MIT ανέπτυξαν ένα νέο σύστημα για τη μηχανική μάθηση που χρησιμοποιεί φως αντί για ηλεκτρόνια για τους υπολογισμούς.
Το σύστημα επιδεικνύει 100πλάσια βελτίωση στην ενεργειακή απόδοση και 25πλάσια βελτίωση στην υπολογιστική πυκνότητα σε σύγκριση με τους τελευταίας τεχνολογίας ψηφιακούς υπολογιστές.
Η τεχνολογία αυτή θα μπορούσε να οδηγήσει σε προγράμματα μηχανικής μάθησης που είναι κατά πολλές τάξεις μεγέθους πιο ισχυρά και ενεργειακά αποδοτικά από τα σημερινά μοντέλα.
Το σύστημα θα μπορούσε να επεκταθεί για εμπορική χρήση σε λίγα χρόνια, επιτρέποντας ενδεχομένως σε μικρές συσκευές όπως τα κινητά τηλέφωνα να εκτελούν σύνθετα προγράμματα μηχανικής μάθησης.

Αναλυτικά το άρθρο:

Το ChatGPT έχει γίνει πρωτοσέλιδο σε όλο τον κόσμο με την ικανότητά του να γράφει δοκίμια, ηλεκτρονικά μηνύματα και κώδικα υπολογιστή με βάση μερικές οδηγίες από τον χρήστη. Τώρα μια ομάδα υπό την ηγεσία του MIT αναφέρει ένα σύστημα που θα μπορούσε να οδηγήσει σε προγράμματα μηχανικής μάθησης αρκετές τάξεις μεγέθους πιο ισχυρά από εκείνο που βρίσκεται πίσω από το ChatGPT.
Το σύστημα που ανέπτυξαν θα μπορούσε επίσης να χρησιμοποιεί αρκετές τάξεις μεγέθους λιγότερη ενέργεια από τους υπερυπολογιστές τελευταίας τεχνολογίας που βρίσκονται πίσω από τα σημερινά μοντέλα μηχανικής μάθησης.

Στο τεύχος της 17ης Ιουλίου της επιθεώρησης Nature Photonics, οι ερευνητές αναφέρουν την πρώτη πειραματική επίδειξη του νέου συστήματος, το οποίο εκτελεί τους υπολογισμούς του με βάση την κίνηση του φωτός και όχι των ηλεκτρονίων, χρησιμοποιώντας εκατοντάδες λέιζερ κλίμακας μικρομέτρων. Με το νέο σύστημα, η ομάδα αναφέρει βελτίωση μεγαλύτερη από 100 φορές στην ενεργειακή απόδοση και 25 φορές στην πυκνότητα υπολογισμού, ένα μέτρο της ισχύος ενός συστήματος, σε σχέση με τους ψηφιακούς υπολογιστές τελευταίας τεχνολογίας για μηχανική μάθηση.

Προς το μέλλον

Στο έγγραφο, η ομάδα αναφέρει επίσης "ουσιαστικά αρκετές ακόμη τάξεις μεγέθους για μελλοντική βελτίωση". Ως αποτέλεσμα, συνεχίζουν οι συγγραφείς, η τεχνική "ανοίγει μια λεωφόρο για οπτοηλεκτρονικούς επεξεργαστές μεγάλης κλίμακας για την επιτάχυνση των εργασιών μηχανικής μάθησης από τα κέντρα δεδομένων έως τις αποκεντρωμένες συσκευές άκρων". Με άλλα λόγια, τα κινητά τηλέφωνα και άλλες μικρές συσκευές θα μπορούσαν να γίνουν ικανά να εκτελούν προγράμματα που σήμερα μπορούν να υπολογιστούν μόνο σε μεγάλα κέντρα δεδομένων.

Επιπλέον, επειδή τα στοιχεία του συστήματος μπορούν να δημιουργηθούν με διαδικασίες κατασκευής που χρησιμοποιούνται ήδη σήμερα, "αναμένουμε ότι θα μπορούσε να επεκταθεί για εμπορική χρήση σε λίγα χρόνια. Για παράδειγμα, οι συστοιχίες λέιζερ που εμπλέκονται χρησιμοποιούνται ευρέως στην αναγνώριση προσώπου σε κινητά τηλέφωνα και στην επικοινωνία δεδομένων", λέει ο Zaijun Chen, πρώτος συγγραφέας, ο οποίος διεξήγαγε την εργασία ενώ ήταν μεταδιδακτορικός ερευνητής στο MIT στο Εργαστήριο Ηλεκτρονικής Έρευνας (RLE) και τώρα είναι επίκουρος καθηγητής στο Πανεπιστήμιο της Νότιας Καλιφόρνιας.

Ο Dirk Englund, αναπληρωτής καθηγητής στο Τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών του ΜΙΤ και επικεφαλής της εργασίας, αναφέρει: "Το ChatGPT περιορίζεται στο μέγεθός του από την ισχύ των σημερινών υπερυπολογιστών. Απλώς δεν είναι οικονομικά βιώσιμο να εκπαιδεύσουμε μοντέλα που είναι πολύ μεγαλύτερα. Η νέα μας τεχνολογία θα μπορούσε να καταστήσει εφικτό το άλμα σε μοντέλα μηχανικής μάθησης που διαφορετικά δεν θα ήταν εφικτό να επιτευχθούν στο εγγύς μέλλον".

Και συνεχίζει: "Δεν ξέρουμε τι δυνατότητες θα έχει η επόμενη γενιά ChatGPT αν είναι 100 φορές πιο ισχυρή, αλλά αυτό είναι το καθεστώς της ανακάλυψης που μπορεί να επιτρέψει αυτού του είδους η τεχνολογία". Ο Englund είναι επίσης επικεφαλής του Εργαστηρίου Κβαντικής Φωτονικής του MIT και συνεργάζεται με το RLE και το Εργαστήριο Έρευνας Υλικών.

Τυμπανοκρουσίες προόδου

Η παρούσα εργασία είναι το τελευταίο επίτευγμα μιας προόδου που σημειώνεται τα τελευταία χρόνια από τον Englund και πολλούς από τους ίδιους συναδέλφους. Για παράδειγμα, το 2019 μια ομάδα του Englund ανέφερε τη θεωρητική εργασία που οδήγησε στην τρέχουσα επίδειξη. Ο πρώτος συγγραφέας εκείνης της δημοσίευσης, ο Ryan Hamerly, ο οποίος τώρα εργάζεται στην RLE και την NTT Research Inc. είναι επίσης συγγραφέας της τρέχουσας δημοσίευσης.

Πρόσθετοι συν-συγγραφείς της τρέχουσας δημοσίευσης στο Nature Photonics είναι οι Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein και Lamia Ateshian, όλοι της RLE, και οι Tobias Heuser, Niels Heermeier, James A. Lott και Stephan Reitzensttein του Τεχνικού Πανεπιστημίου του Βερολίνου.

Τα βαθιά νευρωνικά δίκτυα (DNN), όπως αυτό που βρίσκεται πίσω από το ChatGPT, βασίζονται σε τεράστια μοντέλα μηχανικής μάθησης που προσομοιώνουν τον τρόπο με τον οποίο ο εγκέφαλος επεξεργάζεται τις πληροφορίες. Ωστόσο, οι ψηφιακές τεχνολογίες που βρίσκονται πίσω από τα σημερινά DNN φτάνουν στα όριά τους, ακόμη και όταν ο τομέας της μηχανικής μάθησης αναπτύσσεται. Επιπλέον, απαιτούν τεράστιες ποσότητες ενέργειας και περιορίζονται σε μεγάλο βαθμό σε μεγάλα κέντρα δεδομένων. Αυτό αποτελεί κίνητρο για την ανάπτυξη νέων υπολογιστικών παραδειγμάτων.

Η χρήση του φωτός αντί των ηλεκτρονίων για την εκτέλεση των υπολογισμών των DNN έχει τη δυνατότητα να ξεπεράσει τα σημερινά σημεία συμφόρησης. Οι υπολογισμοί που χρησιμοποιούν την οπτική, για παράδειγμα, έχουν τη δυνατότητα να χρησιμοποιούν πολύ λιγότερη ενέργεια από εκείνους που βασίζονται στα ηλεκτρονικά. Επιπλέον, με την οπτική, "μπορείτε να έχετε πολύ μεγαλύτερο εύρος ζώνης" ή πυκνότητα υπολογισμών, λέει ο Chen. Το φως μπορεί να μεταφέρει πολύ περισσότερες πληροφορίες σε πολύ μικρότερη επιφάνεια.

Όμως, τα σημερινά οπτικά νευρωνικά δίκτυα (ONN) αντιμετωπίζουν σημαντικές προκλήσεις. Για παράδειγμα, χρησιμοποιούν πολλή ενέργεια επειδή είναι αναποτελεσματικά στη μετατροπή των εισερχόμενων δεδομένων που βασίζονται στην ηλεκτρική ενέργεια σε φως. Επιπλέον, τα εμπλεκόμενα εξαρτήματα είναι ογκώδη και καταλαμβάνουν σημαντικό χώρο. Και ενώ τα ONNs είναι αρκετά καλά σε γραμμικούς υπολογισμούς όπως η πρόσθεση, δεν είναι πολύ καλά σε μη γραμμικούς υπολογισμούς όπως ο πολλαπλασιασμός και οι δηλώσεις "if".

Στην παρούσα εργασία οι ερευνητές παρουσιάζουν μια συμπαγή αρχιτεκτονική που, για πρώτη φορά, επιλύει όλες αυτές τις προκλήσεις και άλλες δύο ταυτόχρονα. Η αρχιτεκτονική αυτή βασίζεται σε συστοιχίες λέιζερ κατακόρυφης εκπομπής επιφάνειας (VCSEL) τελευταίας τεχνολογίας, μια σχετικά νέα τεχνολογία που χρησιμοποιείται σε εφαρμογές όπως η τηλεπισκόπηση lidar και η εκτύπωση με λέιζερ. Τα συγκεκριμένα VCELs που αναφέρονται στην εργασία Nature Photonics αναπτύχθηκαν από την ομάδα Reitzenstein του Τεχνικού Πανεπιστημίου του Βερολίνου. "Αυτό ήταν ένα συνεργατικό έργο που δεν θα ήταν εφικτό χωρίς αυτούς", λέει ο Hamerly.

Ο Logan Wright, επίκουρος καθηγητής στο Πανεπιστήμιο Yale, ο οποίος δεν συμμετείχε στην παρούσα έρευνα, σχολιάζει: "Η εργασία των Zaijun Chen et al. εμπνέει, ενθαρρύνοντας εμένα και πιθανότατα πολλούς άλλους ερευνητές σε αυτόν τον τομέα ότι τα συστήματα που βασίζονται σε διαμορφωμένες συστοιχίες VCSEL θα μπορούσαν να αποτελέσουν μια βιώσιμη οδό για οπτικά νευρωνικά δίκτυα μεγάλης κλίμακας και υψηλής ταχύτητας. Φυσικά, η κατάσταση της τεχνολογίας εδώ απέχει ακόμη πολύ από την κλίμακα και το κόστος που θα ήταν απαραίτητα για πρακτικά χρήσιμες συσκευές, αλλά είμαι αισιόδοξος για το τι μπορεί να πραγματοποιηθεί τα επόμενα χρόνια, ιδίως με δεδομένη τη δυνατότητα που έχουν αυτά τα συστήματα να επιταχύνουν τα πολύ μεγάλης κλίμακας, πολύ ακριβά συστήματα τεχνητής νοημοσύνης, όπως αυτά που χρησιμοποιούνται στα δημοφιλή συστήματα κειμενικής "GPT" όπως το ChatGPT".

Οι Chen, Hamerly και Englund έχουν καταθέσει αίτηση για δίπλωμα ευρεσιτεχνίας σχετικά με την εργασία τους, η οποία χρηματοδοτήθηκε από το Γραφείο Έρευνας του Στρατού των ΗΠΑ, την NTT Research, το Πρόγραμμα Μεταπτυχιακών Υποτροφιών Επιστήμης και Μηχανικής της Εθνικής Άμυνας των ΗΠΑ, το Εθνικό Ίδρυμα Επιστημών των ΗΠΑ, το Συμβούλιο Έρευνας Φυσικών Επιστημών και Μηχανικής του Καναδά και το Ίδρυμα Volkswagen.

Πηγή: Machine-learning system based on light could yield more powerful, efficient large language models