ChatGPT, Bard ή Bing; 40.000 άνθρωποι ψήφισαν για το καλύτερο γενετικό μοντέλο τεχνητής νοημοσύνης

26/06/2023 | | |

Περίληψη άρθρου:
Το Πανεπιστήμιο της Καλιφόρνιας στο Μπέρκλεϊ δημιούργησε μια πλατφόρμα που ονομάζεται "Chatbot Arena", έναν ιστότοπο όπου ο καθένας μπορεί να συνομιλήσει ανώνυμα με δύο μοντέλα ταυτόχρονα και μόνο μετά μπορεί να μάθει με ποια μοντέλα μιλούσε. Ο ιστότοπος χρησιμοποιεί τα ίδια μεγάλα γλωσσικά μοντέλα (LLM) που τροφοδοτούν το ChatGPT και άλλα εργαλεία δημιουργικής τεχνητής νοημοσύνης και τα επανασυσκευάζει σε ένα νέο περιβάλλον εργασίας. Ο ιστότοπος περιέχει επίσης μικρότερα μοντέλα που έχουν δημιουργηθεί από ιδιώτες. Μόλις οι χρήστες διαμορφώσουν τις απόψεις τους, ψηφίζουν για το αγαπημένο τους μοντέλο και ο ιστότοπος λαμβάνει υπόψη την ψήφο κάθε χρήστη για να δημιουργήσει μια βαθμολογία χρησιμοποιώντας το σύστημα Elo. Περίπου 40.000 άτομα έχουν συμμετάσχει στο πείραμα από τον Απρίλιο, σύμφωνα με τον Hao Zhang, έναν από τους καθηγητές του UCSD που είναι συνεπικεφαλής της προσπάθειας. Επί του παρόντος, το πιο προηγμένο μοντέλο του ChatGPT, το GPT-4, βρίσκεται στην κορυφή της λίστας με βαθμολογία Elo 1.225. Η δωρεάν έκδοση του ChatGPT είναι τέταρτη στη λίστα με το μοντέλο GPT-3.5 (1.143). Ο Zhang έχει εντοπίσει δύο ανησυχίες σχετικά με τα μεγάλα γλωσσικά μοντέλα (LLM): το απόρρητο των δεδομένων και τη διατήρηση των δεδομένων που τα τροφοδοτούν με υψηλή ποιότητα και χρησιμότητα.

Κύρια σημεία του άρθρου:

Το "Chatbot Arena" του UC Berkeley είναι ένας ζωντανός διαγωνισμός για την τυφλή σύγκριση απαντήσεων από το ChatGPT, το Google Bard, το Anthropic και άλλα μοντέλα τεχνητής νοημοσύνης.
Ο οργανισμός Large Model Systems Organization (LMSYS Org) δημιούργησε έναν ιστότοπο όπου ο καθένας μπορεί να συνομιλήσει ανώνυμα με δύο μοντέλα ταυτόχρονα και να ψηφίσει για το αγαπημένο του.
Ο ιστότοπος χρησιμοποιεί μεγάλα γλωσσικά μοντέλα (LLMs) που τροφοδοτούν το ChatGPT και άλλα, και περιέχει επίσης μικρότερα μοντέλα που έχουν δημιουργηθεί από ιδιώτες.
Περίπου 40.000 άνθρωποι έχουν συμμετάσχει στην Chatbot Arena και ο σημερινός ηγέτης είναι το πιο προηγμένο μοντέλο του ChatGPT, το GPT-4.
Οι ανησυχίες σχετικά με την ευρεία υιοθέτηση των LLMs περιλαμβάνουν το απόρρητο των δεδομένων και την παροχή κινήτρων στους ανθρώπους για τη δημιουργία καλού περιεχομένου.

Αναλυτικά το άρθρο:
Στο "Chatbot Arena" του UC Berkeley, ο καθένας μπορεί να συμμετάσχει σε έναν ζωντανό διαγωνισμό που δημιουργήθηκε για να συγκρίνει στα τυφλά τις απαντήσεις των ChatGPT, Google Bard, Anthropic και άλλων μοντέλων τεχνητής νοημοσύνης. Εδώ είναι ο σημερινός ηγέτης.

Η χρήση του ChatGPT μπορεί να έχει ως αποτέλεσμα μια ανάμεικτη σακούλα χρήσιμων πληροφοριών και ανούσιων απαντήσεων, καθιστώντας δύσκολη την αξιολόγηση της συνολικής απόδοσης του chatbot. Και οι εταιρείες που κατασκευάζουν εργαλεία γεννετικής ΤΝ, συμπεριλαμβανομένων των OpenAI, Google και Microsoft, είναι μυστικοπαθείς σχετικά με τα δεδομένα που χρησιμοποιούν και τον τρόπο με τον οποίο λειτουργούν πραγματικά τα μοντέλα ΤΝ τους.

Πώς να δοκιμάσετε τα chatbots
Για να μάθετε περισσότερα σχετικά με τα εργαλεία γενετικής τεχνητής νοημοσύνης, το Πανεπιστήμιο της Καλιφόρνιας στο Μπέρκλεϊ ίδρυσε μια ομάδα που ονομάζεται Large Model Systems Organization (LMSYS Org, σε συνεργασία με το Πανεπιστήμιο της Καλιφόρνιας στο Σαν Ντιέγκο (UCSD) και το Πανεπιστήμιο Carnegie Mellon (CMU). Αποτελείται από 10 φοιτητές και τέσσερα μέλη ΔΕΠ των τμημάτων έρευνας τεχνητής νοημοσύνης και πληροφορικής. Το LMSYS Org δημιούργησε ένα πείραμα, την "Chatbot Arena", έναν προσαρμοσμένο ιστότοπο όπου ο καθένας μπορεί να συνομιλεί ανώνυμα με δύο μοντέλα ταυτόχρονα.

Μόλις ο χρήστης σχηματίσει γνώμη για το ποιες απαντήσεις του chatbot προτιμά, ψηφίζει για το αγαπημένο του και μόνο αργότερα μαθαίνει με ποια μοντέλα μιλούσε. Ο ιστότοπος χρησιμοποιεί τα ίδια μεγάλα γλωσσικά μοντέλα (LLMs) που τροφοδοτούν το ChatGPT και άλλα και επανασυσκευάζει τα LLMs σε μια νέα διεπαφή, δεδομένου ότι εταιρείες όπως η OpenAI τα έχουν διαθέσει δημόσια. Ο ιστότοπος περιέχει επίσης μικρότερα μοντέλα που έχουν δημιουργηθεί από ιδιώτες.

"Ξεκινήσαμε αυτό επειδή δημιουργήσαμε το δικό μας μοντέλο τεχνητής νοημοσύνης βασισμένο στο μοντέλο LLaMA της Meta τον Απρίλιο, [το οποίο] ονομάσαμε Vicuna, και θέλαμε να εκπαιδεύσουμε διαφορετικές εκδόσεις και να το επαναλάβουμε", λέει ο Hao Zhang, ένας από τους καθηγητές στο UCSD που συνοδηγεί την προσπάθεια. "Μετράει κυρίως την ανθρώπινη προτίμηση και την ικανότητά του να ακολουθεί οδηγίες και να κάνει την εργασία που θέλει ο άνθρωπος, κάτι που είναι πολύ σημαντικός παράγοντας για να γίνει ένα μοντέλο χρήσιμο".

Η ομάδα προσθέτει σταθερά περισσότερα μοντέλα στην αρένα και από τον Απρίλιο έχουν συμμετάσχει περίπου 40.000 άνθρωποι, λέει ο Zhang.

Η αρένα chatbot
Δοκιμάσαμε το Chatbot Arena, παρακάτω. Χωρίς να γνωρίζουμε ποια δύο μοντέλα τεχνητής νοημοσύνης επέλεξε η σελίδα για να τα συγκρίνουμε, ζητήσαμε και από τα δύο να "συντάξουν ένα μήνυμα ηλεκτρονικού ταχυδρομείου στην οικογένειά μου, λέγοντάς τους ότι έχω κλείσει πτήσεις για τις Ευχαριστίες, φτάνοντας στις 22 Νοεμβρίου και φεύγοντας στις 30 Νοεμβρίου". Το καθένα δημιούργησε ένα προτεινόμενο μήνυμα ηλεκτρονικού ταχυδρομείου. Επιλέξαμε το μοντέλο Β ως την προτιμότερη επιλογή.

Στη συνέχεια, η σελίδα αποκάλυψε ότι το Μοντέλο Β ήταν ο Claude, ένας βοηθός τεχνητής νοημοσύνης που κατασκευάστηκε από την Anthropic. Το Μοντέλο Α ονομαζόταν gpt4all-13b-snoozy, κατασκευασμένο από τη Nomic AI.

Ο ιστότοπος λαμβάνει υπόψη την ψήφο κάθε χρήστη για να δημιουργήσει μια βαθμολογία χρησιμοποιώντας το σύστημα Elo, το οποίο "είναι ένα ευρέως χρησιμοποιούμενο σύστημα βαθμολόγησης στο σκάκι και σε άλλα ανταγωνιστικά παιχνίδια", αναφέρει μια δημοσίευση στο blog του LMSYS Org.

"Έχω δει αυτόν τον πίνακα κατάταξης να αναρτάται σε πολλούς αξιοσέβαστους ερευνητικούς ιστότοπους", λέει ο Federico Pascual, ο οποίος στο παρελθόν εργαζόταν στην Hugging Face, η οποία διατηρεί τον δικό της πίνακα κατάταξης των προσαρμοσμένων μοντέλων τεχνητής νοημοσύνης. "Πρόκειται για έναν ενεργό τομέα έρευνας, καθώς οι άνθρωποι βρίσκουν τρόπο να αξιολογούν αυτά τα μοντέλα. Σε τρεις μήνες ή έξι μήνες, [ο πίνακας κατάταξης Chatbot Arena] πιθανώς θα είναι διαφορετικός".

Και ο νικητής είναι...
Το πιο προηγμένο μοντέλο του ChatGPT, το GPT-4, βρίσκεται επί του παρόντος στην κορυφή της λίστας με βαθμολογία Elo 1.225. Είναι διαθέσιμο με λογαριασμό ChatGPT Plus (20 δολάρια το μήνα). Στη συνέχεια, δύο εκδόσεις του Claude, που κατασκευάζονται από την Anthropic, κατατάσσονται στη δεύτερη θέση (1,195) και στην τρίτη (1,153). Το Claude είναι προς το παρόν διαθέσιμο μέσω λίστας αναμονής- μπορέσαμε να αρχίσουμε να το χρησιμοποιούμε μέσα σε λίγες εβδομάδες.

Η δωρεάν έκδοση του ChatGPT βρίσκεται στην τέταρτη θέση, με το μοντέλο του, το GPT-3.5 (1.143). Το OpenAI συνιστά το GPT-3.5 για τις περισσότερες καθημερινές εργασίες, καθώς τρέχει ταχύτερα από το GPT-4 και εξακολουθεί να είναι πολύ ισχυρό. Για το λόγο αυτό, είναι επίσης διαθέσιμο στην επί πληρωμή έκδοση. Σημειώστε όμως ότι η νέα αναζήτηση Bing AI της Microsoft, η οποία είναι δωρεάν, τρέχει επίσης σε GPT-4.

Με το GPT-4 και το GPT-3.5 στην κορυφή της κατάταξης και με το γεγονός ότι η Claude βρίσκεται σε λίστα αναμονής, το ChatGPT και το Microsoft Bing είναι τα πιο προσιτά σημερινά φαβορί.

Το μοντέλο που βρίσκεται πίσω από το Google Bard, το PaLM 2, κατατάσσεται στην έκτη θέση (1.042). Ο Zhang σημειώνει ότι η Google κατασκευάζει πολλαπλές εκδόσεις του PaLM 2 και δεν έχει επιβεβαιώσει ότι το μοντέλο στην Chatbot Arena είναι το ίδιο με αυτό που βρίσκεται πίσω από το Bard. Ο Zhang επικοινώνησε με την Google, αλλά λέει ότι "είναι πολύ μυστικοπαθής" και δεν επιβεβαίωσε. Ξεχωριστά, η ομάδα του Zhang συνέκρινε την έκδοση στην Chatbot Arena με το Google Bard, το οποίο επιβεβαίωσε ότι είναι "τουλάχιστον πολύ κοντά σε αυτό που οι άνθρωποι μπορούν να έχουν πρόσβαση στο Bard", αν όχι πανομοιότυπο.

Ανησυχίες σχετικά με την τεχνητή νοημοσύνη
Από όλη τη δουλειά του με τα LLMs, ο Zhang έχει εντοπίσει μερικές ανησυχίες σχετικά με την ευρεία υιοθέτησή τους. Συμφωνεί με τον διευθύνοντα σύμβουλο του OpenAI, Sam Altman, τον Elon Musk, τον Bill Gates και άλλους που έχουν ζητήσει περισσότερη νομοθεσία για την τεχνητή νοημοσύνη.

Συγκεκριμένα, ο Zhang πιστεύει ότι δύο ζητήματα χρειάζονται περισσότερη προσοχή. Το πρώτο είναι το απόρρητο των δεδομένων, καθώς αυτά τα μοντέλα είναι σε θέση να ξύσουν τον ιστό και να αποστάξουν τα δεδομένα αυτά σε χρήσιμες πληροφορίες καλύτερα από οτιδήποτε άλλο πριν. Ένα άλλο ζήτημα είναι η διατήρηση των δεδομένων που τροφοδοτούν τα μοντέλα σε υψηλή ποιότητα και χρησιμότητα. Εάν τα μοντέλα τεχνητής νοημοσύνης μπορούν να παράγουν το δικό τους περιεχόμενο χρησιμοποιώντας ό,τι είναι διαθέσιμο στον ιστό, ο Zhang πιστεύει ότι δεν θα υπάρχει κίνητρο για τους ανθρώπους να δημιουργήσουν νέο, καλύτερο περιεχόμενο.

"Αυτά τα μεγάλα γλωσσικά μοντέλα [βασίζονται] σε ποιοτικό περιεχόμενο, το οποίο δημιουργείται από ανθρώπους", λέει. "Αν λοιπόν δεν δώσουν κίνητρο στους ανθρώπους να δημιουργήσουν καλό υλικό, πώς μπορείτε να εγγυηθείτε ότι θα βελτιώσουν την ποιότητα ζωής;"

Πηγή: ChatGPT, Bard, or Bing? 40K People Voted for the Best Generative AI Model

ChatGPT, Bard ή Bing; 40.000 άνθρωποι ψήφισαν για το καλύτερο γενετικό μοντέλο τεχνητής νοημοσύνης

Newsletter