Μέσα από τη δημιουργία του ισχυρότερου μοντέλου τεχνητής νοημοσύνης ανοιχτού κώδικα στον κόσμο

29/03/2024 | |

Περίληψη άρθρου:

Η Databricks ξεκίνησε πρόσφατα το DBRX, ένα γλωσσικό μοντέλο ανοιχτού κώδικα που ξεπερνά το Llama 2 της Meta. Η ομάδα ξόδεψε μήνες και 10 εκατομμύρια δολάρια για την εκπαίδευση του DBRX, το οποίο ξεπέρασε άλλα μοντέλα σε διάφορα benchmarks. Με την ανοικτή διάθεση του DBRX, η Databricks στοχεύει να αμφισβητήσει την μυστικότητα των μεγάλων εταιρειών τεχνητής νοημοσύνης και να προωθήσει την καινοτομία. Η διαφάνεια και η δέσμευση της εταιρείας να μοιραστεί τις πληροφορίες για τη δημιουργία του μοντέλου επαινούνται από τους ειδικούς του κλάδου. Το μεγάλο νευρωνικό δίκτυο του DBRX, που βασίζεται στην αρχιτεκτονική μετασχηματιστή, διαθέτει 136 δισεκατομμύρια παραμέτρους και αποτελεσματικές τεχνικές εκπαίδευσης. Η λήψη στρατηγικών αποφάσεων από την Databricks κατά τη διαδικασία ανάπτυξης του μοντέλου οδήγησε τελικά στην αξιοσημείωτη επιτυχία του σε διάφορες εργασίες.Το DBRX της Databricks, ξεπερνώντας τα καθιερωμένα μοντέλα, υπερέχει στα σημεία αναφοράς κωδικοποίησης. Η ανοικτότητα του μοντέλου εγείρει ανησυχίες σχετικά με την κατάχρηση, αλλά προάγει την επιστημονική ανάπτυξη και την κατανόηση των δυνατοτήτων της Τεχνητής Νοημοσύνης για περαιτέρω έρευνα.

Κύρια σημεία του άρθρου:

Η Databricks κυκλοφόρησε το DBRX, ένα γλωσσικό μοντέλο ανοιχτού κώδικα που ξεπερνάει δημοφιλή μοντέλα όπως το Llama 2 της Meta και το Mixtral της Mistral.
Η ομάδα ξόδεψε μήνες και 10 εκατομμύρια δολάρια για την εκπαίδευση του DBRX, επιτυγχάνοντας θετικά αποτελέσματα σε διάφορα benchmarks.
Το DBRX βασίζεται στον σχεδιασμό του νευρωνικού δικτύου μετασχηματιστή, με 136 δισεκατομμύρια παραμέτρους και αρχιτεκτονική "μείγματος ειδικών" για αποτελεσματικότητα.
Η διάθεση του DBRX σε ανοιχτό κώδικα αποσκοπεί στην προώθηση της διαφάνειας στην ανάπτυξη της τεχνητής νοημοσύνης και στην παροχή εργαλείων για διάφορες βιομηχανίες ώστε να κατανοήσουν καλύτερα τα δεδομένα τους.
Ο δημιουργός του DBRX ήταν σίγουρος για την απόδοσή του και υποσχέθηκε να βάψει τα μαλλιά του μπλε, αν αποδειχθεί ότι έκανε λάθος, κάτι που ακολούθησε αργότερα.
Ορισμένοι εμπειρογνώμονες υποστηρίζουν ότι η διαφάνεια στην ανάπτυξη της ΤΝ μπορεί να συμβάλει στον μετριασμό των πιθανών κινδύνων που συνδέονται με την ανοικτή διάθεση ισχυρών μοντέλων ΤΝ.

Αναλυτικά το άρθρο:

Η νεοσύστατη εταιρεία Databricks μόλις κυκλοφόρησε το DBRX, το πιο ισχυρό μοντέλο μεγάλης γλώσσας ανοιχτού κώδικα που έχει δημιουργηθεί μέχρι σήμερα - ξεπερνώντας το Llama 2 της Meta.

Την περασμένη Δευτέρα, περίπου δώδεκα μηχανικοί και στελέχη της εταιρείας επιστήμης δεδομένων και τεχνητής νοημοσύνης Databricks συγκεντρώθηκαν σε αίθουσες συνεδριάσεων συνδεδεμένες μέσω Zoom για να μάθουν αν είχαν καταφέρει να κατασκευάσουν ένα κορυφαίο γλωσσικό μοντέλο τεχνητής νοημοσύνης. Η ομάδα είχε ξοδέψει μήνες και περίπου 10 εκατομμύρια δολάρια, εκπαιδεύοντας το DBRX, ένα μεγάλο γλωσσικό μοντέλο παρόμοιο σε σχεδιασμό με αυτό που βρίσκεται πίσω από το ChatGPT της OpenAI. Αλλά δεν θα γνώριζαν πόσο ισχυρό ήταν το δημιούργημά τους μέχρι να έρθουν τα αποτελέσματα από τις τελικές δοκιμές των ικανοτήτων του.

"Ξεπεράσαμε τα πάντα", είπε τελικά ο Jonathan Frankle, επικεφαλής αρχιτέκτονας νευρωνικών δικτύων στην Databricks και επικεφαλής της ομάδας που δημιούργησε το DBRX, στην ομάδα, η οποία απάντησε με χειροκροτήματα, επευφημίες και emojis χειροκροτημάτων. Ο Frankle συνήθως αποφεύγει την καφεΐνη, αλλά έπαιρνε γουλιές από παγωμένο latte αφού είχε ξενυχτήσει για να γράψει τα αποτελέσματα.

Η Databricks θα κυκλοφορήσει το DBRX με άδεια ανοικτού κώδικα, επιτρέποντας σε άλλους να βασιστούν πάνω στο έργο της. Ο Frankle μοιράστηκε δεδομένα που δείχνουν ότι σε περίπου δώδεκα σημεία αναφοράς που μετρούν την ικανότητα του μοντέλου τεχνητής νοημοσύνης να απαντά σε ερωτήσεις γενικών γνώσεων, να κατανοεί την ανάγνωση, να λύνει δύσκολους λογικούς γρίφους και να παράγει κώδικα υψηλής ποιότητας, το DBRX ήταν καλύτερο από κάθε άλλο διαθέσιμο μοντέλο ανοιχτού κώδικα.

Ξεπέρασε το Llama 2 της Meta και το Mixtral της Mistral, δύο από τα πιο δημοφιλή μοντέλα τεχνητής νοημοσύνης ανοιχτού κώδικα που είναι διαθέσιμα σήμερα. "Ναι!" φώναξε ο Ali Ghodsi, διευθύνων σύμβουλος της Databricks, όταν εμφανίστηκαν οι βαθμολογίες. "Περιμένετε, νικήσαμε το πράγμα του Elon;" Ο Φρανκλ απάντησε ότι πράγματι ξεπέρασαν το μοντέλο Grok AI που πρόσφατα άνοιξε το xAI του Μασκ, προσθέτοντας: "Θα το θεωρήσω επιτυχία αν λάβουμε ένα κακό tweet από αυτόν".

Προς έκπληξη της ομάδας, σε αρκετές βαθμολογίες το DBRX ήταν επίσης συγκλονιστικά κοντά στο GPT-4, το κλειστό μοντέλο της OpenAI που τροφοδοτεί το ChatGPT και θεωρείται ευρέως το αποκορύφωμα της μηχανικής νοημοσύνης. "Θέσαμε μια νέα κατάσταση για τις LLM ανοιχτού κώδικα", δήλωσε ο Frankle με ένα υπερμεγέθες χαμόγελο.

Δομικά στοιχεία

Με την ανοικτή διάθεση, η DBRX Databricks προσθέτει περαιτέρω δυναμική σε ένα κίνημα που αμφισβητεί τη μυστικοπαθή προσέγγιση των πιο σημαντικών εταιρειών στην τρέχουσα έκρηξη της δημιουργικής τεχνητής νοημοσύνης. Η OpenAI και η Google κρατούν τον κώδικα για τα μεγάλα γλωσσικά μοντέλα τους GPT-4 και Gemini υπό στενή κατοχή, αλλά ορισμένοι ανταγωνιστές, κυρίως η Meta, έχουν δώσει τα μοντέλα τους στη δημοσιότητα για να τα χρησιμοποιήσουν και άλλοι, υποστηρίζοντας ότι αυτό θα ωθήσει την καινοτομία θέτοντας την τεχνολογία στα χέρια περισσότερων ερευνητών, επιχειρηματιών, νεοφυών επιχειρήσεων και καθιερωμένων επιχειρήσεων.

Η Databricks λέει ότι θέλει επίσης να ανοιχτεί σχετικά με την εργασία που απαιτείται για τη δημιουργία του μοντέλου ανοικτού κώδικα, κάτι που η Meta δεν έχει κάνει για ορισμένες βασικές λεπτομέρειες σχετικά με τη δημιουργία του μοντέλου Llama 2. Η εταιρεία θα δημοσιεύσει μια ανάρτηση στο ιστολόγιο που θα περιγράφει λεπτομερώς τις εργασίες που απαιτήθηκαν για τη δημιουργία του μοντέλου, ενώ προσκάλεσε επίσης το WIRED να περάσει χρόνο με τους μηχανικούς της Databricks καθώς έπαιρναν βασικές αποφάσεις κατά τα τελικά στάδια της διαδικασίας εκπαίδευσης του DBRX, η οποία κόστισε πολλά εκατομμύρια δολάρια. Αυτό έδωσε μια γεύση του πόσο περίπλοκο και δύσκολο είναι να δημιουργηθεί ένα κορυφαίο μοντέλο τεχνητής νοημοσύνης - αλλά και πώς οι πρόσφατες καινοτομίες στον τομέα υπόσχονται να μειώσουν το κόστος. Αυτό, σε συνδυασμό με τη διαθεσιμότητα μοντέλων ανοικτού κώδικα όπως το DBRX, υποδηλώνει ότι η ανάπτυξη της τεχνητής νοημοσύνης δεν πρόκειται να επιβραδυνθεί σύντομα.

Ο Ali Farhadi, Διευθύνων Σύμβουλος του Allen Institute for AI, λέει ότι χρειάζεται επειγόντως μεγαλύτερη διαφάνεια γύρω από την κατασκευή και την εκπαίδευση των μοντέλων τεχνητής νοημοσύνης. Ο τομέας έχει γίνει όλο και πιο μυστικοπαθής τα τελευταία χρόνια, καθώς οι εταιρείες αναζητούν πλεονέκτημα έναντι των ανταγωνιστών τους. Η αδιαφάνεια είναι ιδιαίτερα σημαντική όταν υπάρχει ανησυχία για τους κινδύνους που θα μπορούσαν να προκαλέσουν τα προηγμένα μοντέλα ΤΝ, λέει. "Είμαι πολύ χαρούμενος που βλέπω οποιαδήποτε προσπάθεια για διαφάνεια", λέει ο Farhadi. "Πιστεύω ότι ένα σημαντικό μέρος της αγοράς θα κινηθεί προς τα ανοικτά μοντέλα. Χρειαζόμαστε περισσότερο από αυτό".

Η Databricks έχει λόγο να είναι ιδιαίτερα ανοιχτή. Παρόλο που τεχνολογικοί κολοσσοί όπως η Google έχουν αναπτύξει γρήγορα νέες εφαρμογές τεχνητής νοημοσύνης κατά το τελευταίο έτος, ο Ghodsi λέει ότι πολλές μεγάλες εταιρείες σε άλλους κλάδους δεν έχουν ακόμη χρησιμοποιήσει ευρέως την τεχνολογία στα δικά τους δεδομένα. Η Databricks ελπίζει να βοηθήσει τις εταιρείες στον χρηματοπιστωτικό τομέα, την ιατρική και άλλες βιομηχανίες, οι οποίες, όπως λέει, διψούν για εργαλεία που μοιάζουν με το ChatGPT, αλλά είναι επίσης επιφυλακτικές ως προς την αποστολή ευαίσθητων δεδομένων στο cloud.

"Το ονομάζουμε νοημοσύνη δεδομένων - η νοημοσύνη για να κατανοήσετε τα δεδομένα σας", λέει ο Ghodsi. Η Databricks θα προσαρμόσει το DBRX για έναν πελάτη ή θα κατασκευάσει ένα προσαρμοσμένο στις ανάγκες της επιχείρησής του από το μηδέν. Για τις μεγάλες εταιρείες, το κόστος κατασκευής κάτι στην κλίμακα του DBRX έχει απόλυτο νόημα, λέει. "Αυτή είναι η μεγάλη επιχειρηματική ευκαιρία για εμάς". Τον Ιούλιο του περασμένου έτους, η Databricks εξαγόρασε μια νεοσύστατη επιχείρηση με την ονομασία MosaicML, η οποία ειδικεύεται στην αποτελεσματικότερη κατασκευή μοντέλων τεχνητής νοημοσύνης, προσλαμβάνοντας αρκετούς ανθρώπους που συμμετείχαν στην κατασκευή του DBRX, συμπεριλαμβανομένου του Frankle. Κανείς από τις δύο εταιρείες δεν είχε προηγουμένως κατασκευάσει κάτι τέτοιας κλίμακας στο παρελθόν.

Εσωτερικές λειτουργίες

Το DBRX, όπως και άλλα μεγάλα γλωσσικά μοντέλα, είναι ουσιαστικά ένα γιγαντιαίο τεχνητό νευρωνικό δίκτυο -ένα μαθηματικό πλαίσιο χαλαρά εμπνευσμένο από βιολογικούς νευρώνες- στο οποίο έχουν τροφοδοτηθεί τεράστιες ποσότητες δεδομένων κειμένου. Το DBRX και οι όμοιοί του βασίζονται γενικά στον μετασχηματιστή, έναν τύπο νευρωνικού δικτύου που εφευρέθηκε από μια ομάδα της Google το 2017 και έφερε επανάσταση στη μηχανική μάθηση για τη γλώσσα.

Λίγο καιρό μετά την εφεύρεση του μετασχηματιστή, οι ερευνητές του OpenAI άρχισαν να εκπαιδεύουν εκδόσεις αυτού του είδους μοντέλου σε όλο και μεγαλύτερες συλλογές κειμένου που προέρχονται από το διαδίκτυο και άλλες πηγές - μια διαδικασία που μπορεί να διαρκέσει μήνες. Το κρίσιμο είναι ότι διαπίστωσαν ότι καθώς το μοντέλο και το σύνολο δεδομένων στο οποίο εκπαιδεύτηκε μεγάλωναν, τα μοντέλα γίνονταν πιο ικανά, συνεκτικά και φαινομενικά ευφυή στην παραγωγή τους.

Η αναζήτηση ακόμη μεγαλύτερης κλίμακας παραμένει εμμονή της OpenAI και άλλων κορυφαίων εταιρειών τεχνητής νοημοσύνης. Ο διευθύνων σύμβουλος της OpenAI, Σαμ Άλτμαν, έχει αναζητήσει χρηματοδότηση ύψους 7 τρισεκατομμυρίων δολαρίων για την ανάπτυξη εξειδικευμένων τσιπ για τεχνητή νοημοσύνη, σύμφωνα με την Wall Street Journal. Αλλά δεν έχει σημασία μόνο το μέγεθος κατά τη δημιουργία ενός γλωσσικού μοντέλου. Ο Frankle λέει ότι δεκάδες αποφάσεις λαμβάνονται για τη δημιουργία ενός προηγμένου νευρωνικού δικτύου, με κάποιες γνώσεις σχετικά με το πώς να εκπαιδεύεστε πιο αποτελεσματικά που μπορούν να αντληθούν από ερευνητικές εργασίες, ενώ άλλες λεπτομέρειες μοιράζονται εντός της κοινότητας. Είναι ιδιαίτερα δύσκολο να διατηρείς χιλιάδες υπολογιστές συνδεδεμένους με περίεργους διακόπτες και καλώδια οπτικών ινών να συνεργάζονται.

"Έχετε αυτούς τους τρελούς [δικτυακούς] μεταγωγείς που κάνουν terabits ανά δευτερόλεπτο εύρους ζώνης που έρχονται από πολλές διαφορετικές κατευθύνσεις", δήλωσε ο Frankle πριν ολοκληρωθεί η τελική εκτέλεση της εκπαίδευσης. "Είναι απίστευτο ακόμα και για κάποιον που έχει περάσει τη ζωή του στην επιστήμη των υπολογιστών". Το γεγονός ότι ο Frankle και οι άλλοι στη MosaicML είναι ειδικοί σε αυτή τη σκοτεινή επιστήμη εξηγεί γιατί η εξαγορά της Databricks από τη νεοσύστατη επιχείρηση πέρυσι την αποτίμησε σε 1,3 δισεκατομμύρια δολάρια.

Τα δεδομένα που τροφοδοτούνται σε ένα μοντέλο έχουν επίσης μεγάλη διαφορά στο τελικό αποτέλεσμα - ίσως αυτό εξηγεί γιατί είναι η μόνη λεπτομέρεια που δεν αποκαλύπτει ανοιχτά η Databricks. "Η ποιότητα των δεδομένων, ο καθαρισμός των δεδομένων, το φιλτράρισμα των δεδομένων, η προετοιμασία των δεδομένων είναι όλα πολύ σημαντικά", λέει ο Naveen Rao, αντιπρόεδρος της Databricks και προηγουμένως ιδρυτής και διευθύνων σύμβουλος της MosaicML. "Αυτά τα μοντέλα είναι πραγματικά μια απλή συνάρτηση αυτού. Μπορείτε να το θεωρήσετε σχεδόν ως το πιο σημαντικό πράγμα για την ποιότητα των μοντέλων".

Οι ερευνητές ΤΝ συνεχίζουν να εφευρίσκουν βελτιώσεις και τροποποιήσεις της αρχιτεκτονικής για να κάνουν τα πιο πρόσφατα μοντέλα ΤΝ πιο αποδοτικά. Ένα από τα πιο σημαντικά άλματα τον τελευταίο καιρό ήρθε χάρη σε μια αρχιτεκτονική γνωστή ως "μίξη εμπειρογνωμόνων", στην οποία μόνο ορισμένα τμήματα ενός μοντέλου ενεργοποιούνται για να απαντήσουν σε ένα ερώτημα, ανάλογα με το περιεχόμενό του.

Αυτό παράγει ένα μοντέλο που είναι πολύ πιο αποδοτικό στην εκπαίδευση και τη λειτουργία του. Το DBRX διαθέτει περίπου 136 δισεκατομμύρια παραμέτρους, ή τιμές εντός του μοντέλου που ενημερώνονται κατά τη διάρκεια της εκπαίδευσης. Το Llama 2 έχει 70 δισεκατομμύρια παραμέτρους, το Mixtral έχει 45 δισεκατομμύρια και το Grok έχει 314 δισεκατομμύρια. Αλλά το DBRX ενεργοποιεί μόνο περίπου 36 δισεκατομμύρια κατά μέσο όρο για να επεξεργαστεί ένα τυπικό ερώτημα. Η Databricks αναφέρει ότι οι βελτιώσεις στο μοντέλο που αποσκοπούν στη βελτίωση της χρήσης του υποκείμενου υλικού βοήθησαν στη βελτίωση της αποδοτικότητας της εκπαίδευσης κατά 30 έως 50 τοις εκατό. Αυτό κάνει επίσης το μοντέλο να ανταποκρίνεται πιο γρήγορα στα ερωτήματα και απαιτεί λιγότερη ενέργεια για να εκτελεστεί, λέει η εταιρεία.

Ανοίξτε

Μερικές φορές η εξαιρετικά τεχνική τέχνη της εκπαίδευσης ενός γιγάντιου μοντέλου τεχνητής νοημοσύνης καταλήγει σε μια απόφαση που είναι συναισθηματική, καθώς και τεχνική. Πριν από δύο εβδομάδες, η ομάδα Databricks αντιμετώπιζε ένα ερώτημα πολλών εκατομμυρίων δολαρίων σχετικά με την καλύτερη δυνατή αξιοποίηση του μοντέλου.

Μετά από δύο μήνες εργασίας για την εκπαίδευση του μοντέλου σε 3.072 ισχυρές GPUs Nvidia H100s που είχαν μισθωθεί από έναν πάροχο cloud, το DBRX είχε ήδη συγκεντρώσει εντυπωσιακές βαθμολογίες σε διάφορα benchmarks, κι όμως υπήρχε περίπου άλλη μια εβδομάδα χρόνου για τον υπερυπολογιστή που έπρεπε να καεί.

Διαφορετικά μέλη της ομάδας έδωσαν ιδέες στο Slack για το πώς να χρησιμοποιήσουν την εναπομένουσα εβδομάδα ισχύος του υπολογιστή. Μια ιδέα ήταν να δημιουργηθεί μια έκδοση του μοντέλου που να είναι ρυθμισμένη να παράγει κώδικα υπολογιστή ή μια πολύ μικρότερη έκδοση για να παίζουν οι χομπίστες. Η ομάδα εξέτασε επίσης το ενδεχόμενο να σταματήσει τις εργασίες για να κάνει το μοντέλο μεγαλύτερο και αντ' αυτού να το τροφοδοτεί με προσεκτικά επιμελημένα δεδομένα που θα μπορούσαν να ενισχύσουν την απόδοσή του σε ένα συγκεκριμένο σύνολο δυνατοτήτων, μια προσέγγιση που ονομάζεται μάθηση με βάση το πρόγραμμα σπουδών.

Ή θα μπορούσαν απλώς να συνεχίσουν όπως ήταν, κάνοντας το μοντέλο μεγαλύτερο και, ελπίζουμε, πιο ικανό. Αυτή η τελευταία οδός ήταν γνωστή ως η επιλογή "fuck it", και ένα μέλος της ομάδας φάνηκε ιδιαίτερα ενθουσιώδες σε αυτήν.

Παρόλο που η συζήτηση παρέμεινε φιλική, αναδύθηκαν έντονες απόψεις καθώς διάφοροι μηχανικοί πίεζαν για την αγαπημένη τους προσέγγιση. Στο τέλος, ο Frankle οδήγησε επιδέξια την ομάδα προς την προσέγγιση με επίκεντρο τα δεδομένα. Και δύο εβδομάδες αργότερα φαίνεται ότι αυτό απέδωσε μαζικά. "Η εκμάθηση του προγράμματος σπουδών ήταν καλύτερη, έκανε ουσιαστική διαφορά", λέει ο Frankle.

Ο Frankle ήταν λιγότερο επιτυχής στην πρόβλεψη άλλων αποτελεσμάτων από το έργο.

Είχε αμφιβολίες ότι το DBRX θα αποδεικνυόταν ιδιαίτερα καλό στη δημιουργία κώδικα υπολογιστή, επειδή η ομάδα δεν επικεντρώθηκε ρητά σε αυτό. Ένιωθε μάλιστα αρκετά σίγουρος ώστε να πει ότι θα έβαφε τα μαλλιά του μπλε αν έκανε λάθος. Τα αποτελέσματα της Δευτέρας αποκάλυψαν ότι το DBRX ήταν καλύτερο από οποιοδήποτε άλλο ανοιχτό μοντέλο τεχνητής νοημοσύνης σε τυποποιημένα κριτήρια αναφοράς για τον προγραμματισμό. "Έχουμε στα χέρια μας ένα πραγματικά καλό μοντέλο κώδικα", δήλωσε κατά τη διάρκεια της μεγάλης αποκάλυψης της Δευτέρας. "Έχω κλείσει ραντεβού για να βάψω τα μαλλιά μου σήμερα".

Αξιολόγηση κινδύνου

Η τελική έκδοση του DBRX είναι το πιο ισχυρό μοντέλο τεχνητής νοημοσύνης που έχει κυκλοφορήσει ανοιχτά, για να το χρησιμοποιήσει ή να το τροποποιήσει οποιοσδήποτε.

(Τουλάχιστον αν δεν είναι μια εταιρεία με περισσότερους από 700 εκατομμύρια χρήστες, έναν περιορισμό που θέτει η Meta και στο δικό της μοντέλο τεχνητής νοημοσύνης ανοικτού κώδικα Llama 2). Η πρόσφατη συζήτηση σχετικά με τους πιθανούς κινδύνους της πιο ισχυρής τεχνητής νοημοσύνης έχει επικεντρωθεί μερικές φορές στο κατά πόσον το να καταστήσουμε τα μοντέλα τεχνητής νοημοσύνης ανοικτά σε οποιονδήποτε θα μπορούσε να είναι πολύ επικίνδυνο. Ορισμένοι ειδικοί έχουν προτείνει ότι τα ανοικτά μοντέλα θα μπορούσαν πολύ εύκολα να χρησιμοποιηθούν καταχρηστικά από εγκληματίες ή τρομοκράτες που σκοπεύουν να διαπράξουν εγκλήματα στον κυβερνοχώρο ή να αναπτύξουν βιολογικά ή χημικά όπλα. Η Databricks λέει ότι έχει ήδη πραγματοποιήσει δοκιμές ασφαλείας του μοντέλου της και θα συνεχίσει να το εξετάζει.

Η Stella Biderman, εκτελεστική διευθύντρια του EleutherAI, ενός συνεργατικού ερευνητικού έργου αφιερωμένου στην ανοικτή έρευνα για την τεχνητή νοημοσύνη, λέει ότι υπάρχουν ελάχιστα στοιχεία που υποδηλώνουν ότι η ανοικτότητα αυξάνει τους κινδύνους. Η ίδια και άλλοι έχουν υποστηρίξει ότι εξακολουθούμε να μην κατανοούμε καλά πόσο επικίνδυνα είναι πραγματικά τα μοντέλα τεχνητής νοημοσύνης ή τι μπορεί να τα κάνει επικίνδυνα - κάτι στο οποίο θα μπορούσε να βοηθήσει η μεγαλύτερη διαφάνεια.

"Συχνά, δεν υπάρχει κανένας ιδιαίτερος λόγος να πιστεύουμε ότι τα ανοιχτά μοντέλα ενέχουν σημαντικά αυξημένο κίνδυνο σε σύγκριση με τα υπάρχοντα κλειστά μοντέλα", λέει ο Biderman.

Η EleutherAI ενώθηκε με τη Mozilla και περίπου 50 άλλους οργανισμούς και μελετητές στην αποστολή ανοιχτής επιστολής αυτόν τον μήνα προς την υπουργό Εμπορίου των ΗΠΑ Gina Raimondo, ζητώντας της να διασφαλίσει ότι η μελλοντική ρύθμιση για την τεχνητή νοημοσύνη θα αφήνει χώρο για έργα τεχνητής νοημοσύνης ανοιχτού κώδικα.

Στην επιστολή υποστηρίζεται ότι τα ανοικτά μοντέλα είναι καλά για την οικονομική ανάπτυξη, επειδή βοηθούν τις νεοσύστατες επιχειρήσεις και τις μικρές επιχειρήσεις, και επίσης "συμβάλλουν στην επιτάχυνση της επιστημονικής έρευνας".

Η Databricks ελπίζει ότι το DBRX μπορεί να κάνει και τα δύο. Εκτός του ότι παρέχει σε άλλους ερευνητές AI ένα νέο μοντέλο για να παίξουν και χρήσιμες συμβουλές για την κατασκευή του δικού τους, το DBRX μπορεί να συμβάλει σε μια βαθύτερη κατανόηση του πώς λειτουργεί πραγματικά η AI, λέει ο Frankle. Η ομάδα του σχεδιάζει να μελετήσει πώς άλλαξε το μοντέλο κατά την τελευταία εβδομάδα της εκπαίδευσης, αποκαλύπτοντας ίσως πώς ένα ισχυρό μοντέλο αποκτά πρόσθετες δυνατότητες. "Το κομμάτι που με ενθουσιάζει περισσότερο είναι η επιστήμη που μπορούμε να κάνουμε σε αυτή την κλίμακα", λέει.

Πηγή: Inside the Creation of the World’s Most Powerful Open Source AI Model