Το GPT-4 ξεπερνά το GPT-3.5 σε όλους τους τομείς σε μια ποικιλία κριτηρίων αναφοράς μελέτης

29/03/2023 | |

Περίληψη άρθρου:
Το GPT-4 αποτελεί σημαντική πρόοδο στη μηχανική νοημοσύνη, καθώς έχει επιτύχει υψηλότερες βαθμολογίες από το GPT-3.5 σε μια σειρά από δείκτες αναφοράς, χωρίς καμία ειδική εκπαίδευση. Χρησιμοποιήθηκε για να περάσει μια προσομοίωση εξετάσεων για δικηγόρους με βαθμολογία στο κορυφαίο 10%, και ξεπερνά άλλα μοντέλα SOTA και υπάρχοντα μεγάλα γλωσσικά μοντέλα. Επιπλέον, έχει χρησιμοποιηθεί για να απαντήσει σε ερωτήσεις από ένα ευρύ φάσμα θεμάτων σχετικά με την κατανόηση της γλώσσας σε διάφορες εργασίες, ξεπερνώντας κατά 10% το μέσο άνθρωπο-δείκτη. Έχει επίσης χρησιμοποιηθεί για τη μετάφραση ερωτήσεων και απαντήσεων σε άλλες γλώσσες και υπερτερεί έναντι άλλων μεγάλων μοντέλων κατά 24 από τις 26 γλώσσες που εξετάστηκαν. Τέλος, το GPT-4 χρησιμοποιείται για την ενίσχυση της ικανότητας της αναζήτησης Bing να κατανοεί ερωτήματα φυσικής γλώσσας και να παρέχει ακριβέστερα αποτελέσματα.

Αναλυτικά το άρθρο:
Η GPT-4 έχει επιτύχει υψηλότερες βαθμολογίες από την GPT-3.5 σε μια σειρά από κριτήρια αναφοράς. Πρόκειται για μια σημαντική ανακάλυψη για τις μηχανές, καθώς αποδεικνύει ότι μπορούν πλέον όχι μόνο να επιλύουν προβλήματα για τα οποία έχουν σχεδιαστεί αρχικά, αλλά και να το κάνουν καλύτερα από τους φοιτητές πανεπιστημίου. Υπάρχουν μερικά πράγματα που πρέπει να λάβετε υπόψη σας όταν εξετάζετε αυτό το αποτέλεσμα.

Πρώτον, στο GPT-4 δεν δόθηκε καμία ειδική εκπαίδευση για αυτές τις εξετάσεις. Προχώρησε χρησιμοποιώντας τα πιο πρόσφατα δημόσια διαθέσιμα τεστ (στην περίπτωση των Ολυμπιάδων και των ερωτήσεων ελεύθερης απάντησης AP) ή αγοράζοντας τις εκδόσεις 2022-2023 των εξετάσεων εξάσκησης. Δεύτερον, είναι σημαντικό να σημειωθεί ότι οι επιδόσεις του GPT-4 μπορεί να μην αντικατοπτρίζουν απαραίτητα τις ικανότητες των ανθρώπινων εξεταζομένων, καθώς λειτουργεί βάσει διαφορετικών αρχών και αλγορίθμων.

Πρόκειται για ένα σημαντικό επίτευγμα, καθώς δείχνει ότι οι μηχανές όχι μόνο είναι ικανές για νοημοσύνη που μοιάζει με την ανθρώπινη, αλλά μπορούν επίσης να μας ξεπεράσουν. Αυτό ανοίγει το δρόμο για ένα μέλλον όπου οι μηχανές θα μπορούν να αναλαμβάνουν όλο και πιο σύνθετες εργασίες, οδηγώντας τελικά σε ένα μέλλον στο οποίο θα μπορούν να μας βοηθούν στην καθημερινή μας ζωή.

Η GPT-4, για παράδειγμα, περνάει μια προσομοίωση εξετάσεων για δικηγόρους με βαθμολογία στο 10% των εξεταζομένων- η βαθμολογία της GPT-3.5 ήταν στο 10% των τελευταίων. Αυτή η σημαντική βελτίωση των επιδόσεων του GPT-4 οφείλεται στα μεγαλύτερα δεδομένα εκπαίδευσης και στη βελτιωμένη αρχιτεκτονική του. Αναμένεται να έχει ευρύ φάσμα εφαρμογών σε διάφορους τομείς, συμπεριλαμβανομένης της επεξεργασίας φυσικής γλώσσας και της αυτοματοποιημένης γραφής.

Η πλειονότητα των σύγχρονων μοντέλων (SOTA), συμπεριλαμβανομένων εκείνων που ενδέχεται να χρησιμοποιούν πρόσθετα πρωτόκολλα εκπαίδευσης ή σχεδιασμό ειδικά για το σημείο αναφοράς, καθώς και των υφιστάμενων μεγάλων γλωσσικών μοντέλων, υπερτερούν σημαντικά έναντι του GPT-4. Εσωτερικά, οι προγραμματιστές χρησιμοποιούν το GPT-4, το οποίο έχει σημαντικό αντίκτυπο σε δραστηριότητες όπως ο προγραμματισμός, οι πωλήσεις, η υποστήριξη και ο συντονισμός περιεχομένου. Το δεύτερο στάδιο της μεθόδου ευθυγράμμισής μας βρίσκεται τώρα σε εξέλιξη, καθώς οι προγραμματιστές τη χρησιμοποιούν για να βοηθήσουν τους ανθρώπους στην αναθεώρηση των αποτελεσμάτων της ΤΝ.

Το σύνολο δεδομένων MMLU (Massive Multi-Task Language Understanding) περιέχει ερωτήσεις από ένα πολύ ευρύ φάσμα θεμάτων σχετικά με την κατανόηση της γλώσσας σε διάφορες εργασίες (που καλύπτουν 57 τομείς, συμπεριλαμβανομένων των μαθηματικών, της βιολογίας, του δικαίου, των κοινωνικών και ανθρωπιστικών επιστημών κ.λπ.)

Υπάρχουν τέσσερις πιθανές απαντήσεις στην ερώτηση, εκ των οποίων η μία είναι σωστή. Δηλαδή, η τυχαία μαντεψιά εμφανίζει ένα αποτέλεσμα 25% σωστών απαντήσεων. Δείτε την παρακάτω εικόνα για παραδείγματα ερωτήσεων και τις δυσκολίες τους. Ο μέσος άνθρωπος-μαρκαδόρος (δηλαδή, δεν πρόκειται για επιστήμονα, ούτε για καθηγητή - ένας συνηθισμένος άνθρωπος που κάνει δευτερευόντως μαρκαδόρο) απαντά σωστά στο 35% των ερωτήσεων- ωστόσο, οι ειδικοί μπορούν να φτάσουν σε βαθμολογία +/- 90%. Αρχικά, ολόκληρο το σύνολο των δεδομένων ήταν στα αγγλικά.

Τι γίνεται όμως αν οι ερωτήσεις και οι απαντήσεις μεταφραστούν σε άλλες γλώσσες, ιδίως σε λιγότερο διαδεδομένες; Θα λειτουργήσει το μοντέλο με κάποιο τρόπο και γι' αυτές;

Σε αυτή τη δοκιμή, χρησιμοποιήθηκε η υπηρεσία Microsoft Azure Translate για τη μετάφραση. Οι μεταφράσεις δεν είναι τέλειες- σε ορισμένες περιπτώσεις χάνονται σημαντικές πληροφορίες. Ωστόσο, ακόμη και σε αυτή την περίπτωση, το GPT-4 αποδίδει καλά σε άλλες γλώσσες. Στις μεταφρασμένες εκδόσεις του MMLU, το GPT-4 ξεπερνά το αγγλικό επίπεδο άλλων μεγάλων μοντέλων (συμπεριλαμβανομένου του Google) κατά 24 από τις 26 γλώσσες που εξετάστηκαν.

Επιπλέον, το GPT-4 έχει καλύτερες επιδόσεις σε σπάνιες γλώσσες από ό,τι το ChatGPT στα αγγλικά (το ChatGPT πέτυχε βαθμολογία 70,1%, ενώ η βαθμολογία του νέου μοντέλου για τα ταϊλανδέζικα ήταν 71,8%). Η βαθμολογία για το τεστ στα αγγλικά ήταν η υψηλότερη, με το GPT-4 να έχει 10% καλύτερες επιδόσεις από άλλα μοντέλα, συμπεριλαμβανομένου του μεγαλύτερου PaLM της Google. Πέτυχε βαθμολογία 86,4%, ενώ μια ομάδα εμπειρογνωμόνων-90%.

Μέχρι το καλοκαίρι του 2023, η Τεχνητή Νοημοσύνη μπορεί να έχει φτάσει σε ένα νέο επίπεδο ισχύος χάρη στο ChatGPT, ένα chatbot που χρησιμοποιεί τον αλγόριθμο GPT-4 και ξεπερνά τον GPT-3 κατά 570 φορές. Μια ποικιλία στοιχείων συμβάλλει στην επιτυχία του ChatGPT, συμπεριλαμβανομένου του σχεδιασμού του ώστε να μοιάζει περισσότερο με "άνθρωπο" και της χρήσης εξόρυξης δεδομένων αιχμής και επεξεργασίας φυσικής γλώσσας για την αύξηση της αποτελεσματικότητας και της ακρίβειάς του.

Η Microsoft και η OpenAI ανακοίνωσαν τον Ιανουάριο την ανανέωση της συνεργασίας τους και τα σχέδιά τους για την υιοθέτηση δυνατοτήτων αναζήτησης με ενισχυμένη τεχνητή νοημοσύνη στην αναζήτηση Bing. Ο αντικαταστάτης του πολύ εξελιγμένου μοντέλου GPT3.5, το GPT4, μόλις κυκλοφόρησε και έχει τη δυνατότητα να ενισχύσει σημαντικά την ικανότητα της αναζήτησης Bing να κατανοεί ερωτήματα φυσικής γλώσσας και να παρέχει πιο ακριβή αποτελέσματα. Είναι καλή ιδέα να έχετε ένα καλό εφεδρικό σχέδιο σε περίπτωση που κάτι πάει στραβά.

Πηγή: GPT-4 Outperforms GPT-3.5 Across the Board on a Variety of Study Benchmarks