Το νέο γλωσσικό μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα "Falcon" ξεπερνά τις Meta και Google

29/09/2023 | |

Περίληψη άρθρου:

Το Falcon 180B, ένα μοντέλο μεγάλης γλώσσας (LLM) ανοιχτού κώδικα, που μόλις κυκλοφόρησε, ξεπέρασε το LLaMA 2 της Meta με τις εντυπωσιακές 180 δισεκατομμύρια παραμέτρους που εκπαιδεύτηκε σε τεράστιο όγκο δεδομένων. Το μοντέλο, που ανακοινώθηκε από την κοινότητα Hugging Face AI, βασίζεται σε προηγούμενα Falcon LLM και χρησιμοποιεί καινοτομίες όπως η προσοχή πολλαπλών ερωτήσεων. Ξεπερνάει το LLaMA 2 και άλλα μοντέλα σε κλίμακα και επιδόσεις αναφοράς σε διάφορες εργασίες επεξεργασίας φυσικής γλώσσας. Το Falcon 180B κατατάσσεται υψηλά στους πίνακες κατάταξης μοντέλων ανοικτής πρόσβασης και έχει συγκρίσιμες επιδόσεις με εμπορικά μοντέλα όπως το PaLM-2 της Google. Αν και υπολείπεται ελαφρώς της επί πληρωμή έκδοσης του ChatGPT, οι δυνατότητές του καταδεικνύουν σημαντική πρόοδο στην τεχνητή νοημοσύνη ανοικτού κώδικα. Με το Falcon 180B να είναι πλέον διαθέσιμο για περαιτέρω βελτιώσεις από την κοινότητα, οι ερευνητές αναμένουν ακόμη μεγαλύτερα κέρδη στις ικανότητές του στη φυσική γλώσσα. Αυτή η έκδοση αντιπροσωπεύει ένα αξιοσημείωτο βήμα προς τα εμπρός στην ανάπτυξη μεγάλων γλωσσικών μοντέλων.

Κύρια σημεία του άρθρου:

Το Falcon 180B είναι ένα μεγάλο γλωσσικό μοντέλο (LLM) ανοικτού κώδικα με 180 δισεκατομμύρια παραμέτρους που εκπαιδεύτηκε σε 3,5 τρισεκατομμύρια tokens.
Το Falcon 180B ξεπερνά τα προηγούμενα μοντέλα LLM ανοικτού κώδικα σε διάφορα μέτωπα, συμπεριλαμβανομένης της κλίμακας και της απόδοσης σε συγκριτικές μετρήσεις σε ένα εύρος εργασιών επεξεργασίας φυσικής γλώσσας (NLP).
Το Falcon 180B ταιριάζει ή ξεπερνά το PaLM-2 Medium της Google σε συχνά χρησιμοποιούμενα benchmarks και είναι ισάξιο του PaLM-2 Large.
Η κυκλοφορία του Falcon 180B σηματοδοτεί μια συναρπαστική εξέλιξη για την τεχνητή νοημοσύνη ανοικτού κώδικα και αναμένονται περαιτέρω βελτιώσεις από την κοινότητα.

Αναλυτικά το άρθρο:

Το τεράστιο LLaMA 2 της Meta, με 70 δισεκατομμύρια παραμέτρους, έχει ξεπεραστεί από το πρόσφατα κυκλοφορήσαν Falcon Large Language Model με 180 δισεκατομμύρια παραμέτρους.

Η κοινότητα της τεχνητής νοημοσύνης έχει ένα νέο φτερό στο καπέλο της με την κυκλοφορία του Falcon 180B, ενός μεγάλου γλωσσικού μοντέλου (LLM) ανοικτού κώδικα που διαθέτει 180 δισεκατομμύρια παραμέτρους εκπαιδευμένες σε ένα βουνό δεδομένων. Αυτό το ισχυρό νεοεισερχόμενο μοντέλο ξεπέρασε τα προηγούμενα LLM ανοικτού κώδικα σε πολλά μέτωπα.

Το Falcon 180B ανακοινώθηκε σε μια ανάρτηση στο ιστολόγιο της κοινότητας Hugging Face AI, και κυκλοφόρησε στο Hugging Face Hub. Η αρχιτεκτονική του τελευταίου μοντέλου βασίζεται στην προηγούμενη σειρά Falcon των LLM ανοιχτού κώδικα, αξιοποιώντας καινοτομίες όπως η προσοχή πολλαπλών ερωτημάτων για την κλιμάκωση σε 180 δισεκατομμύρια παραμέτρους που εκπαιδεύονται σε 3,5 τρισεκατομμύρια μάρκες.

Αυτό αντιπροσωπεύει τη μεγαλύτερη προ-εκπαίδευση με ένα μόνο έπος για ένα μοντέλο ανοιχτού κώδικα μέχρι σήμερα. Για την επίτευξη τέτοιων σημείων, χρησιμοποιήθηκαν ταυτόχρονα 4.096 GPUs για περίπου 7 εκατομμύρια ώρες GPU, χρησιμοποιώντας το Amazon SageMaker για την εκπαίδευση και τον εξευγενισμό.

Για να θέσουμε το μέγεθος του Falcon 180B σε προοπτική, οι παράμετροι του μετράνε 2,5 φορές μεγαλύτερες από το μοντέλο LLaMA 2 της Meta. Το LLaMA 2 θεωρούνταν προηγουμένως το πιο ικανό LLM ανοικτού κώδικα μετά την κυκλοφορία του νωρίτερα φέτος, διαθέτοντας 70 δισεκατομμύρια παραμέτρους που εκπαιδεύτηκαν σε 2 τρισεκατομμύρια μάρκες.

Το Falcon 180B ξεπερνά το LLaMA 2 και άλλα μοντέλα τόσο σε κλίμακα όσο και σε επιδόσεις συγκριτικής αξιολόγησης σε μια σειρά εργασιών επεξεργασίας φυσικής γλώσσας (NLP). Κατατάσσεται στην κορυφή του πίνακα των μοντέλων ανοικτής πρόσβασης με 68,74 βαθμούς και φτάνει σχεδόν στην ίδια θέση με εμπορικά μοντέλα όπως το PaLM-2 της Google σε αξιολογήσεις όπως το benchmark HellaSwag.

Συγκεκριμένα, το Falcon 180B ταιριάζει ή ξεπερνά το PaLM-2 Medium σε ευρέως χρησιμοποιούμενα benchmarks, συμπεριλαμβανομένων των HellaSwag, LAMBADA, WebQuestions, Winogrande και άλλων. Βασικά, βρίσκεται στο ίδιο επίπεδο με το PaLM-2 Large της Google. Αυτό αντιπροσωπεύει εξαιρετικά ισχυρές επιδόσεις για ένα μοντέλο ανοιχτού κώδικα, ακόμη και όταν συγκρίνεται με λύσεις που έχουν αναπτυχθεί από γίγαντες του κλάδου.

Όταν συγκρίνεται με το ChatGPT, το μοντέλο είναι πιο ισχυρό από τη δωρεάν έκδοση, αλλά λίγο λιγότερο ικανό από την επί πληρωμή υπηρεσία "plus".

"Το Falcon 180B τυπικά βρίσκεται κάπου μεταξύ GPT 3.5 και GPT4, ανάλογα με το σημείο αναφοράς αξιολόγησης, και η περαιτέρω τελειοποίηση από την κοινότητα θα είναι πολύ ενδιαφέρον να την παρακολουθήσουμε τώρα που κυκλοφορεί ανοιχτά", αναφέρεται στο blog.

Η απελευθέρωση του Falcon 180B αποτελεί το τελευταίο άλμα προς τα εμπρός στην ταχεία πρόοδο που έχει σημειωθεί πρόσφατα με τις LLM. Πέρα από την απλή κλιμάκωση των παραμέτρων, τεχνικές όπως τα LoRAs, η τυχαία επιλογή βάρους και το Perfusion της Nvidia έχουν επιτρέψει τη δραματικά πιο αποτελεσματική εκπαίδευση μεγάλων μοντέλων AI.

Με το Falcon 180B να είναι πλέον ελεύθερα διαθέσιμο στο Hugging Face, οι ερευνητές αναμένουν ότι το μοντέλο θα σημειώσει πρόσθετα κέρδη με περαιτέρω βελτιώσεις που θα αναπτυχθούν από την κοινότητα. Ωστόσο, η επίδειξη προηγμένων δυνατοτήτων φυσικής γλώσσας από την πρώτη στιγμή σηματοδοτεί μια συναρπαστική εξέλιξη για την τεχνητή νοημοσύνη ανοικτού κώδικα.

Πηγή: New Open-Source ‘Falcon’ AI Language Model Overtakes Meta and Google