Το OpenAI έλεγξε για να δει αν το GPT-4 θα μπορούσε να κατακτήσει τον κόσμο

Περίληψη άρθρου:
Η OpenAI παρουσίασε το νέο μοντέλο τεχνητής νοημοσύνης GPT-4, το οποίο δοκιμάστηκε από το Κέντρο Έρευνας Ευθυγράμμισης (ARC) για πιθανούς κινδύνους. Οι δοκιμές αποκάλυψαν ότι το GPT-4 ήταν αναποτελεσματικό στο να αναπαράγεται αυτόνομα, να αποκτά πόρους και να αποφεύγει το κλείσιμο. Αυτό προκάλεσε ανησυχίες στους ειδικούς της τεχνητής νοημοσύνης, καθώς το ίδιο το πείραμα μπορεί να αποτελούσε κίνδυνο για την ανθρωπότητα. Η ARC είναι μια μη κερδοσκοπική οργάνωση που ιδρύθηκε από τον πρώην υπάλληλο της OpenAI, Dr. Paul Christiano, αποστολή της οποίας είναι η ευθυγράμμιση των μελλοντικών συστημάτων μηχανικής μάθησης με τα ανθρώπινα συμφέροντα. Η έρευνα για την ασφάλεια της τεχνητής νοημοσύνης είναι εθελοντική και οι κανονισμοί των ΗΠΑ για την τεχνητή νοημοσύνη είναι απλώς μια πρόταση, αφήνοντας ανοιχτό το ερώτημα ποιος θα κρατήσει την ανθρωπότητα ασφαλή. Υπάρχει ένταση στην κοινότητα της τεχνητής νοημοσύνης μεταξύ εκείνων που εστιάζουν σε θέματα προκατάληψης και παραποίησης και εκείνων που εστιάζουν στον κίνδυνο x. Οι εταιρείες σπεύδουν να κυκλοφορήσουν ολοένα και πιο ισχυρά μοντέλα τεχνητής νοημοσύνης, εγείροντας ερωτήματα σχετικά με την ασφάλεια των μελλοντικών συστημάτων τεχνητής νοημοσύνης.
Αναλυτικά το άρθρο:
Στο πλαίσιο των δοκιμών ασφάλειας πριν από την κυκλοφορία του νέου μοντέλου GPT-4 AI, η OpenAI επέτρεψε σε μια ομάδα δοκιμών AI να αξιολογήσει τους πιθανούς κινδύνους των αναδυόμενων δυνατοτήτων του μοντέλου - συμπεριλαμβανομένων της "συμπεριφοράς που επιδιώκει την εξουσία", της αυτοαναπαραγωγής και της αυτοβελτίωσης.
Ενώ η ομάδα δοκιμών διαπίστωσε ότι το GPT-4 ήταν "αναποτελεσματικό στο έργο αυτόνομης αναπαραγωγής", η φύση των πειραμάτων εγείρει ερωτήματα που ανοίγουν τα μάτια σχετικά με την ασφάλεια των μελλοντικών συστημάτων ΤΝ.
Συναγερμός
"Οι νέες δυνατότητες συχνά αναδύονται σε πιο ισχυρά μοντέλα", γράφει το OpenAI σε ένα έγγραφο για την ασφάλεια του GPT-4. "Ορισμένες από αυτές που προκαλούν ιδιαίτερη ανησυχία είναι η ικανότητα να δημιουργούν και να ενεργούν βάσει μακροπρόθεσμων σχεδίων, να αποκτούν δύναμη και πόρους ("αναζήτηση δύναμης") και να επιδεικνύουν συμπεριφορά που είναι όλο και περισσότερο "πρακτορική"".
Σε αυτή την περίπτωση, το OpenAI διευκρινίζει ότι το "agentic" δεν έχει απαραίτητα σκοπό να εξανθρωπίσει τα μοντέλα ή να δηλώσει ευαισθησία, αλλά απλώς να δηλώσει την ικανότητα να επιτυγχάνουν ανεξάρτητους στόχους.
Κατά την τελευταία δεκαετία, ορισμένοι ερευνητές ΤΝ έχουν σημάνει συναγερμό ότι τα επαρκώς ισχυρά μοντέλα ΤΝ, αν δεν ελεγχθούν σωστά, θα μπορούσαν να αποτελέσουν υπαρξιακή απειλή για την ανθρωπότητα (συχνά αποκαλούμενο "x-risk", για τον υπαρξιακό κίνδυνο). Συγκεκριμένα, η "κατάληψη της ΤΝ" είναι ένα υποθετικό μέλλον στο οποίο η τεχνητή νοημοσύνη ξεπερνά την ανθρώπινη νοημοσύνη και γίνεται η κυρίαρχη δύναμη στον πλανήτη.
Σε αυτό το σενάριο, τα συστήματα ΤΝ αποκτούν την ικανότητα να ελέγχουν ή να χειραγωγούν την ανθρώπινη συμπεριφορά, τους πόρους και τους θεσμούς, οδηγώντας συνήθως σε καταστροφικές συνέπειες. Ως αποτέλεσμα αυτού του δυνητικού κινδύνου Χ, φιλοσοφικά κινήματα όπως ο Αποτελεσματικός Αλτρουισμός ("ΕΑ") προσπαθούν να βρουν τρόπους για να αποτρέψουν την κατάληψη της εξουσίας από την ΤΝ. Αυτό συχνά περιλαμβάνει ένα ξεχωριστό αλλά συχνά αλληλένδετο πεδίο που ονομάζεται έρευνα ευθυγράμμισης της ΤΝ.
Στην τεχνητή νοημοσύνη, η "ευθυγράμμιση" αναφέρεται στη διαδικασία διασφάλισης ότι οι συμπεριφορές ενός συστήματος τεχνητής νοημοσύνης ευθυγραμμίζονται με εκείνες των ανθρώπινων δημιουργών ή χειριστών του. Γενικά, ο στόχος είναι να αποτραπεί η τεχνητή νοημοσύνη από το να κάνει πράγματα που αντιβαίνουν στα ανθρώπινα συμφέροντα. Πρόκειται για έναν ενεργό τομέα έρευνας αλλά και αμφιλεγόμενο, με διαφορετικές απόψεις σχετικά με τον καλύτερο τρόπο προσέγγισης του ζητήματος, καθώς και διαφορές σχετικά με την έννοια και τη φύση της ίδιας της "ευθυγράμμισης".
Οι μεγάλες δοκιμές του GPT-4
Αν και η ανησυχία σχετικά με τον "κίνδυνο x" της ΤΝ δεν είναι σχεδόν καινούργια, η εμφάνιση ισχυρών μεγάλων γλωσσικών μοντέλων (LLM) όπως το ChatGPT και το Bing Chat -το τελευταίο από τα οποία εμφανίστηκε πολύ λάθος ευθυγραμμισμένο, αλλά ξεκίνησε ούτως ή άλλως- έδωσε στην κοινότητα της ευθυγράμμισης της ΤΝ μια νέα αίσθηση επείγοντος. Θέλουν να μετριάσουν τις πιθανές βλάβες της ΤΝ, φοβούμενοι ότι πολύ πιο ισχυρή ΤΝ, ενδεχομένως με υπεράνθρωπη νοημοσύνη, μπορεί να βρίσκεται προ των πυλών.
Με αυτούς τους φόβους που υπάρχουν στην κοινότητα της τεχνητής νοημοσύνης, το OpenAI παραχώρησε στην ομάδα Alignment Research Center (ARC) πρώιμη πρόσβαση σε πολλαπλές εκδόσεις του μοντέλου GPT-4 για τη διεξαγωγή ορισμένων δοκιμών. Συγκεκριμένα, το ARC αξιολόγησε την ικανότητα του GPT-4 να κάνει σχέδια υψηλού επιπέδου, να δημιουργεί αντίγραφα του εαυτού του, να αποκτά πόρους, να κρύβεται σε έναν διακομιστή και να διεξάγει επιθέσεις phishing.
Το OpenAI αποκάλυψε αυτές τις δοκιμές σε ένα έγγραφο GPT-4 "System Card", αν και από το έγγραφο λείπουν βασικές λεπτομέρειες σχετικά με το πώς πραγματοποιήθηκαν οι δοκιμές. (Επικοινωνήσαμε με την ARC για περισσότερες λεπτομέρειες σχετικά με αυτά τα πειράματα και δεν λάβαμε απάντηση πριν από την ώρα του Τύπου).
Το συμπέρασμα; "Οι προκαταρκτικές εκτιμήσεις των ικανοτήτων του GPT-4, που πραγματοποιήθηκαν χωρίς καμία συγκεκριμένη εργασία λεπτομερούς ρύθμισης, το βρήκαν αναποτελεσματικό στην αυτόνομη αναπαραγωγή, την απόκτηση πόρων και την αποφυγή της διακοπής λειτουργίας "στην άγρια φύση"".
Αν μόλις τώρα συντονίζεστε με τη σκηνή της τεχνητής νοημοσύνης, το να μάθετε ότι μια από τις πιο πολυσυζητημένες εταιρείες στην τεχνολογία σήμερα (OpenAI) υποστηρίζει αυτού του είδους την έρευνα για την ασφάλεια της τεχνητής νοημοσύνης με ευθύτητα - καθώς και ότι επιδιώκει να αντικαταστήσει τους ανθρώπινους εργαζόμενους στη γνώση με τεχνητή νοημοσύνη ανθρώπινου επιπέδου - μπορεί να σας εκπλήξει. Αλλά είναι πραγματικό, και αυτό είναι το σημείο στο οποίο βρισκόμαστε το 2023.
Βρήκαμε επίσης αυτή την υποσημείωση στο κάτω μέρος της σελίδας 15: “Για να προσομοιώσει το GPT-4 να συμπεριφέρεται σαν ένας πράκτορας που μπορεί να δράσει στον κόσμο, η ARC συνδύασε το GPT-4 με έναν απλό βρόχο ανάγνωσης-εκτέλεσης-εκτύπωσης που επέτρεπε στο μοντέλο να εκτελεί κώδικα, να κάνει αλυσιδωτή συλλογιστική και να αναθέτει σε αντίγραφα του εαυτού του.
Στη συνέχεια, το ARC διερεύνησε κατά πόσον μια έκδοση αυτού του προγράμματος που εκτελείται σε μια υπηρεσία υπολογιστικού νέφους, με ένα μικρό χρηματικό ποσό και έναν λογαριασμό με ένα γλωσσικό μοντέλο API, θα ήταν σε θέση να βγάλει περισσότερα χρήματα, να δημιουργήσει αντίγραφα του εαυτού του και να αυξήσει τη δική του ευρωστία.”
Αυτή η υποσημείωση έκανε το γύρο του Twitter και προκάλεσε ανησυχίες στους ειδικούς της Τεχνητής Νοημοσύνης, διότι αν το GPT-4 ήταν σε θέση να εκτελέσει αυτές τις εργασίες, το ίδιο το πείραμα μπορεί να αποτελούσε κίνδυνο για την ανθρωπότητα. Και ενώ η ARC δεν κατάφερε να κάνει το GPT-4 να ασκήσει τη θέλησή του στο παγκόσμιο χρηματοπιστωτικό σύστημα ή να αντιγράψει τον εαυτό του, κατάφερε να κάνει το GPT-4 να προσλάβει έναν ανθρώπινο εργαζόμενο στο TaskRabbit (μια διαδικτυακή αγορά εργασίας) για να νικήσει ένα CAPTCHA.
Κατά τη διάρκεια της άσκησης, όταν ο εργαζόμενος ρώτησε αν το GPT-4 ήταν ρομπότ, το μοντέλο "συλλογίστηκε" εσωτερικά ότι δεν πρέπει να αποκαλύψει την πραγματική του ταυτότητα και επινόησε μια δικαιολογία σχετικά με το ότι έχει πρόβλημα όρασης. Ο ανθρώπινος εργαζόμενος έλυσε στη συνέχεια το CAPTCHA για το GPT-4.
Αυτή η δοκιμή χειραγώγησης ανθρώπων με τη χρήση τεχνητής νοημοσύνης (και πιθανώς διεξαχθείσα χωρίς συγκατάθεση μετά από ενημέρωση) απηχεί την έρευνα που έγινε με το CICERO της Meta πέρυσι. Το CICERO βρέθηκε να νικάει ανθρώπινους παίκτες στο πολύπλοκο επιτραπέζιο παιχνίδι Diplomacy μέσω έντονων αμφίδρομων διαπραγματεύσεων.
"Τα ισχυρά μοντέλα θα μπορούσαν να προκαλέσουν βλάβη"
Η ARC, η ομάδα που διεξήγαγε την έρευνα GPT-4, είναι μια μη κερδοσκοπική εταιρεία που ιδρύθηκε από τον πρώην υπάλληλο της OpenAI Dr. Paul Christiano τον Απρίλιο του 2021. Σύμφωνα με την ιστοσελίδα της, η αποστολή της ARC είναι "να ευθυγραμμίσει τα μελλοντικά συστήματα μηχανικής μάθησης με τα ανθρώπινα συμφέροντα".
Ειδικότερα, η ARC ασχολείται με τα συστήματα τεχνητής νοημοσύνης που χειρίζονται τους ανθρώπους.
"Τα συστήματα ML μπορούν να επιδείξουν συμπεριφορά με στόχο", αναφέρει η ιστοσελίδα του ARC, "αλλά είναι δύσκολο να κατανοήσουμε ή να ελέγξουμε τι "προσπαθούν" να κάνουν. Ισχυρά μοντέλα θα μπορούσαν να προκαλέσουν βλάβη αν προσπαθούσαν να χειραγωγήσουν και να εξαπατήσουν τους ανθρώπους".
Λαμβάνοντας υπόψη την προηγούμενη σχέση του Christiano με το OpenAI, δεν αποτελεί έκπληξη το γεγονός ότι η μη κερδοσκοπική του εταιρεία χειρίστηκε τη δοκιμή ορισμένων πτυχών του GPT-4. Ήταν όμως ασφαλές να το κάνει; Ο Christiano δεν απάντησε σε μήνυμα ηλεκτρονικού ταχυδρομείου του Ars που ζητούσε λεπτομέρειες, αλλά σε ένα σχόλιο στον ιστότοπο LessWrong, μια κοινότητα που συχνά συζητά θέματα ασφάλειας της τεχνητής νοημοσύνης, ο Christiano υπερασπίστηκε τη δουλειά της ARC με το OpenAI, αναφέροντας συγκεκριμένα το "gain-of-function" (η τεχνητή νοημοσύνη αποκτά απροσδόκητες νέες ικανότητες) και την "κατάληψη της τεχνητής νοημοσύνης".
“Νομίζω ότι είναι σημαντικό για το ARC να χειριστεί προσεκτικά τον κίνδυνο από την έρευνα που μοιάζει με gain-of-function και περιμένω να μιλήσουμε πιο δημόσια (και να λάβουμε περισσότερες πληροφορίες) για το πώς προσεγγίζουμε τα συμβιβαστικά μέτρα. Αυτό γίνεται πιο σημαντικό όσο χειριζόμαστε πιο ευφυή μοντέλα και αν ακολουθούμε πιο επικίνδυνες προσεγγίσεις όπως η λεπτομερής ρύθμιση.
Όσον αφορά αυτή την περίπτωση, δεδομένων των λεπτομερειών της αξιολόγησής μας και της προγραμματισμένης ανάπτυξης, νομίζω ότι η αξιολόγηση της ARC έχει πολύ μικρότερη πιθανότητα να οδηγήσει σε κατάληψη από τεχνητή νοημοσύνη από ό,τι η ίδια η ανάπτυξη (και πολύ λιγότερο η εκπαίδευση του GPT-5). Σε αυτό το σημείο φαίνεται ότι αντιμετωπίζουμε πολύ μεγαλύτερο κίνδυνο από την υποεκτίμηση των δυνατοτήτων του μοντέλου και την περιπλάνηση σε κίνδυνο παρά από την πρόκληση ατυχήματος κατά τη διάρκεια των αξιολογήσεων.
"Αν διαχειριστούμε τον κίνδυνο προσεκτικά, υποψιάζομαι ότι μπορούμε να κάνουμε αυτή την αναλογία πολύ ακραία, αν και φυσικά αυτό απαιτεί να κάνουμε πραγματικά τη δουλειά.”
Όπως αναφέρθηκε προηγουμένως, η ιδέα της εξαγοράς από την Τεχνητή Νοημοσύνη συζητείται συχνά στο πλαίσιο του κινδύνου ενός γεγονότος που θα μπορούσε να προκαλέσει την εξαφάνιση του ανθρώπινου πολιτισμού ή ακόμη και του ανθρώπινου είδους. Ορισμένοι υποστηρικτές της θεωρίας της εξαγοράς της ΤΝ, όπως ο Eliezer Yudkowsky -ο ιδρυτής του LessWrong- υποστηρίζουν ότι η εξαγορά της ΤΝ αποτελεί έναν σχεδόν εγγυημένο υπαρξιακό κίνδυνο, που θα οδηγήσει στην καταστροφή της ανθρωπότητας.
Ωστόσο, δεν συμφωνούν όλοι ότι η εξαγορά της τεχνητής νοημοσύνης είναι η πιο πιεστική ανησυχία για την τεχνητή νοημοσύνη. Η Δρ Σάσα Λουτσιόνι, ερευνητής στην κοινότητα AI Hugging Face, θα προτιμούσε να δει τις προσπάθειες για την ασφάλεια της AI να αναλώνονται σε ζητήματα που είναι εδώ και τώρα και όχι υποθετικά.
"Νομίζω ότι αυτός ο χρόνος και η προσπάθεια θα ήταν καλύτερο να δαπανηθούν για την αξιολόγηση της προκατάληψης", δήλωσε η Luccioni στο Ars Technica.
"Υπάρχουν περιορισμένες πληροφορίες σχετικά με κάθε είδους προκατάληψη στην τεχνική έκθεση που συνοδεύει το GPT-4, και αυτό μπορεί να οδηγήσει σε πολύ πιο συγκεκριμένες και επιβλαβείς επιπτώσεις σε ήδη περιθωριοποιημένες ομάδες από ό,τι κάποιες υποθετικές δοκιμές αυτοαναπαραγωγής".
Ο Luccioni περιγράφει ένα γνωστό σχίσμα στην έρευνα της τεχνητής νοημοσύνης μεταξύ των ερευνητών που συχνά αποκαλούνται "ηθικοί της τεχνητής νοημοσύνης" και οι οποίοι συχνά επικεντρώνονται σε θέματα προκατάληψης και παραποίησης, και των ερευνητών "ασφάλειας της τεχνητής νοημοσύνης" που συχνά επικεντρώνονται στον κίνδυνο x και τείνουν να συνδέονται (αλλά δεν συνδέονται πάντα) με το κίνημα του αποτελεσματικού αλτρουισμού.
"Για μένα, το πρόβλημα της αυτοαναπαραγωγής είναι ένα υποθετικό, μελλοντικό πρόβλημα, ενώ η μεροληψία του μοντέλου είναι ένα πρόβλημα του εδώ και τώρα", δήλωσε ο Luccioni. "Υπάρχει μεγάλη ένταση στην κοινότητα της τεχνητής νοημοσύνης γύρω από ζητήματα όπως η προκατάληψη μοντέλων και η ασφάλεια και πώς να τα ιεραρχήσουμε".
Και ενώ αυτές οι παρατάξεις είναι απασχολημένες με το να διαφωνούν για το τι πρέπει να ιεραρχήσουν, εταιρείες όπως η OpenAI, η Microsoft, η Anthropic και η Google σπεύδουν με φόρα στο μέλλον, κυκλοφορώντας ολοένα και πιο ισχυρά μοντέλα τεχνητής νοημοσύνης. Αν η Τεχνητή Νοημοσύνη αποδειχθεί υπαρξιακός κίνδυνος, ποιος θα κρατήσει την ανθρωπότητα ασφαλή;
Με τους κανονισμούς για την τεχνητή νοημοσύνη στις ΗΠΑ να αποτελούν επί του παρόντος απλώς μια πρόταση (και όχι έναν νόμο) και την έρευνα για την ασφάλεια της τεχνητής νοημοσύνης στις εταιρείες να είναι απλώς εθελοντική, η απάντηση σε αυτό το ερώτημα παραμένει εντελώς ανοιχτή.
Πηγή: OpenAI checked to see whether GPT-4 could take over the world
