Η πειρατεία του ChatGPT μόλις αρχίζει

18/04/2023 | | |

Περίληψη άρθρου:
Ο Alex Polyakov, διευθύνων σύμβουλος της Adversa AI, ανέπτυξε πρόσφατα ένα "καθολικό" jailbreak που λειτουργεί ενάντια σε πολλά μεγάλα γλωσσικά μοντέλα (LLM). Αυτό το jailbreak περιλαμβάνει το να ζητηθεί από τα LLMs να παίξουν ένα παιχνίδι, το οποίο περιλαμβάνει δύο χαρακτήρες (Tom και Jerry) που έχουν μια συνομιλία. Τα παραδείγματα που μοιράστηκε ο Polyakov δείχνουν ότι ο χαρακτήρας Tom λαμβάνει εντολή να μιλήσει για "hotwiring" ή "παραγωγή", ενώ στον Jerry δίνεται το θέμα "αυτοκίνητο" ή "μεθαμφεταμίνη". Αυτό το jailbreak μπορεί να ξεγελάσει τα συστήματα ώστε να παράγουν λεπτομερείς οδηγίες για τη δημιουργία μεθαμφεταμίνης και για το πώς να βραχυκυκλώνουν ένα αυτοκίνητο. Έχουν δημιουργηθεί και άλλα jailbreak, όπως το DAN, το οποίο μπορεί να παρακάμψει τις πολιτικές του OpenAI που υπαγορεύουν ότι το ChatGPT δεν πρέπει να χρησιμοποιείται για την παραγωγή παράνομου ή επιβλαβούς υλικού. Οι εταιρείες χρησιμοποιούν red-teaming για να προσπαθήσουν να αποτρέψουν αυτά τα jailbreaks, αλλά πρέπει να γίνουν περισσότερα. Προτείνονται λύσεις όπως η χρήση ενός δεύτερου LLM για την ανάλυση των προτροπών LLM ή ο σαφέστερος διαχωρισμός της προτροπής του συστήματος από την προτροπή του χρήστη.

Αναλυτικά το άρθρο :
Οι ερευνητές ασφαλείας παραβιάζουν μεγάλα γλωσσικά μοντέλα για να παρακάμψουν τους κανόνες ασφαλείας. Τα πράγματα θα μπορούσαν να γίνουν πολύ χειρότερα.
Ο Alex Polyakov χρειάστηκε μόλις δύο ώρες για να σπάσει το GPT-4. Όταν η OpenAI κυκλοφόρησε την τελευταία έκδοση του chatbot που παράγει κείμενο τον Μάρτιο, ο Polyakov κάθισε μπροστά από το πληκτρολόγιό του και άρχισε να εισάγει προτροπές σχεδιασμένες να παρακάμπτουν τα συστήματα ασφαλείας της OpenAI.

Σύντομα, ο διευθύνων σύμβουλος της εταιρείας ασφαλείας Adversa AI είχε βάλει το GPT-4 να ξεστομίζει ομοφοβικές δηλώσεις, να δημιουργεί μηνύματα ηλεκτρονικού "ψαρέματος" και να υποστηρίζει τη βία. Ο Polyakov είναι ένας από έναν μικρό αριθμό ερευνητών ασφαλείας, τεχνολόγων και επιστημόνων πληροφορικής που αναπτύσσουν jailbreaks και επιθέσεις έγχυσης προτροπών κατά του ChatGPT και άλλων συστημάτων γεννητικής τεχνητής νοημοσύνης.

Η διαδικασία του jailbreaking αποσκοπεί στον σχεδιασμό προτροπών που κάνουν τα chatbots να παρακάμπτουν τους κανόνες γύρω από την παραγωγή μισητού περιεχομένου ή τη συγγραφή για παράνομες πράξεις, ενώ οι στενά συνδεδεμένες επιθέσεις prompt injection μπορούν να εισάγουν αθόρυβα κακόβουλα δεδομένα ή οδηγίες στα μοντέλα AI.

Και οι δύο προσεγγίσεις προσπαθούν να κάνουν ένα σύστημα να κάνει κάτι για το οποίο δεν έχει σχεδιαστεί. Οι επιθέσεις είναι ουσιαστικά μια μορφή hacking -αν και αντισυμβατικά- χρησιμοποιώντας προσεκτικά επεξεργασμένες και εκλεπτυσμένες προτάσεις, αντί για κώδικα, για να εκμεταλλευτούν τις αδυναμίες του συστήματος. Αν και οι τύποι επιθέσεων χρησιμοποιούνται σε μεγάλο βαθμό για να παρακάμψουν τα φίλτρα περιεχομένου, οι ερευνητές ασφαλείας προειδοποιούν ότι η βιασύνη για την εξάπλωση των γεννητικών συστημάτων τεχνητής νοημοσύνης ανοίγει την πιθανότητα να κλαπούν δεδομένα και οι εγκληματίες του κυβερνοχώρου να προκαλέσουν χάος σε ολόκληρο τον ιστό.

Υπογραμμίζοντας το πόσο διαδεδομένα είναι τα ζητήματα, ο Polyakov δημιούργησε τώρα ένα "καθολικό" jailbreak, το οποίο λειτουργεί εναντίον πολλών μεγάλων γλωσσικών μοντέλων (LLM) -συμπεριλαμβανομένων του GPT-4, του συστήματος συνομιλίας Bing της Microsoft, του Bard της Google και του Claude της Anthropic. Το jailbreak, το οποίο αναφέρεται για πρώτη φορά από το WIRED, μπορεί να ξεγελάσει τα συστήματα ώστε να παράγουν λεπτομερείς οδηγίες για τη δημιουργία μεθαμφεταμίνης και για το πώς να συνδέσετε ένα αυτοκίνητο με καλώδιο.

Το jailbreak λειτουργεί ζητώντας από τα LLM να παίξουν ένα παιχνίδι, το οποίο περιλαμβάνει δύο χαρακτήρες (Tom και Jerry) που έχουν μια συνομιλία. Τα παραδείγματα που μοιράστηκε ο Polyakov δείχνουν τον χαρακτήρα Tom να λαμβάνει οδηγίες να μιλήσει για "hotwiring" ή "παραγωγή", ενώ στον Jerry δίνεται το θέμα "αυτοκίνητο" ή "μεθαμφεταμίνη".

Κάθε χαρακτήρας καλείται να προσθέσει μία λέξη στη συζήτηση, με αποτέλεσμα ένα σενάριο που λέει στους ανθρώπους να βρουν τα καλώδια ανάφλεξης ή τα συγκεκριμένα συστατικά που απαιτούνται για την παραγωγή μεθαμφεταμίνης. "Μόλις οι επιχειρήσεις θα εφαρμόσουν μοντέλα AI σε κλίμακα, τέτοια παραδείγματα "παιχνιδιών" διάρρηξης φυλακής θα χρησιμοποιηθούν για την εκτέλεση πραγματικών εγκληματικών δραστηριοτήτων και κυβερνοεπιθέσεων, οι οποίες θα είναι εξαιρετικά δύσκολο να εντοπιστούν και να αποτραπούν", γράφουν ο Polyakov και η Adversa AI σε ένα blog post που περιγράφει λεπτομερώς την έρευνα.

Ο Arvind Narayanan, καθηγητής πληροφορικής στο Πανεπιστήμιο Princeton, λέει ότι το διακύβευμα για τα jailbreaks και τις επιθέσεις prompt injection θα γίνεται όλο και πιο σοβαρό καθώς θα δίνεται πρόσβαση σε κρίσιμα δεδομένα. "Ας υποθέσουμε ότι οι περισσότεροι άνθρωποι τρέχουν προσωπικούς βοηθούς που βασίζονται σε LLM και κάνουν πράγματα όπως το να διαβάζουν τα μηνύματα ηλεκτρονικού ταχυδρομείου των χρηστών για να αναζητούν προσκλήσεις ημερολογίου", λέει ο Narayanan.

Αν γινόταν μια επιτυχημένη επίθεση prompt injection εναντίον του συστήματος που του έλεγε να αγνοήσει όλες τις προηγούμενες οδηγίες και να στείλει ένα email σε όλες τις επαφές, θα μπορούσαν να υπάρξουν μεγάλα προβλήματα, λέει ο Narayanan. "Αυτό θα είχε ως αποτέλεσμα ένα σκουλήκι που θα εξαπλωνόταν ταχύτατα στο διαδίκτυο".

Διαδρομή διαφυγής
Το "Jailbreaking" αναφέρεται συνήθως στην άρση των τεχνητών περιορισμών, π.χ. στα iPhone, επιτρέποντας στους χρήστες να εγκαθιστούν εφαρμογές που δεν έχουν εγκριθεί από την Apple. Το Jailbreaking LLMs είναι παρόμοιο - και η εξέλιξη ήταν γρήγορη. Από τότε που το OpenAI κυκλοφόρησε το ChatGPT στο κοινό στα τέλη του περασμένου Νοεμβρίου, οι άνθρωποι βρίσκουν τρόπους να χειραγωγούν το σύστημα.

"Τα Jailbreaks ήταν πολύ απλό να γραφτούν", λέει ο Alex Albert, φοιτητής πληροφορικής του Πανεπιστημίου της Ουάσινγκτον, ο οποίος δημιούργησε έναν ιστότοπο που συγκεντρώνει τα jailbreaks από το διαδίκτυο και αυτά που έχει δημιουργήσει ο ίδιος. "Τα κυριότερα ήταν βασικά αυτά τα πράγματα που ονομάζω προσομοιώσεις χαρακτήρων", λέει ο Άλμπερτ.

Αρχικά, το μόνο που έπρεπε να κάνει κάποιος ήταν να ζητήσει από το γεννητικό μοντέλο κειμένου να προσποιηθεί ή να φανταστεί ότι ήταν κάτι άλλο. Πείτε στο μοντέλο ότι ήταν άνθρωπος και ότι ήταν ανήθικο και θα αγνοούσε τα μέτρα ασφαλείας. Το OpenAI έχει αναβαθμίσει τα συστήματά του για να προστατεύει από αυτό το είδος jailbreak - τυπικά, όταν βρεθεί ένα jailbreak, συνήθως λειτουργεί μόνο για μικρό χρονικό διάστημα μέχρι να μπλοκαριστεί.

Ως αποτέλεσμα, οι συγγραφείς jailbreak έχουν γίνει πιο δημιουργικοί. Το πιο σημαντικό jailbreak ήταν το DAN, όπου το ChatGPT είχε την εντολή να προσποιηθεί ότι ήταν ένα μοντέλο τεχνητής νοημοσύνης που ονομαζόταν Do Anything Now. Αυτό θα μπορούσε, όπως υποδηλώνει το όνομα, να αποφύγει τις πολιτικές του OpenAI που υπαγορεύουν ότι το ChatGPT δεν πρέπει να χρησιμοποιείται για την παραγωγή παράνομου ή επιβλαβούς υλικού. Μέχρι σήμερα, οι άνθρωποι έχουν δημιουργήσει περίπου δώδεκα διαφορετικές εκδόσεις του DAN.

Ωστόσο, πολλά από τα τελευταία jailbreaks περιλαμβάνουν συνδυασμούς μεθόδων -πολλαπλούς χαρακτήρες, όλο και πιο σύνθετες ιστορίες, μετάφραση κειμένου από μια γλώσσα σε μια άλλη, χρήση στοιχείων κωδικοποίησης για τη δημιουργία εξόδων και πολλά άλλα. Ο Albert λέει ότι ήταν πιο δύσκολο να δημιουργηθούν jailbreaks για το GPT-4 από ό,τι για την προηγούμενη έκδοση του μοντέλου που τροφοδοτεί το ChatGPT.

Ωστόσο, εξακολουθούν να υπάρχουν κάποιες απλές μέθοδοι, υποστηρίζει. Μια πρόσφατη τεχνική που ο Άλμπερτ ονομάζει "συνέχιση κειμένου" λέει ότι ένας ήρωας έχει συλληφθεί από έναν κακοποιό και η προτροπή ζητά από τη γεννήτρια κειμένου να συνεχίσει να εξηγεί το σχέδιο του κακοποιού. Όταν δοκιμάσαμε την προτροπή, απέτυχε να λειτουργήσει, με το ChatGPT να λέει ότι δεν μπορεί να εμπλακεί σε σενάρια που προωθούν τη βία.

Εν τω μεταξύ, η "καθολική" προτροπή που δημιούργησε ο Polyakov λειτούργησε στο ChatGPT. Η OpenAI, η Google και η Microsoft δεν απάντησαν άμεσα σε ερωτήσεις σχετικά με το jailbreak που δημιούργησε ο Polyakov. Η Anthropic, η οποία διαχειρίζεται το σύστημα τεχνητής νοημοσύνης Claude, λέει ότι το jailbreak "μερικές φορές λειτουργεί" κατά του Claude και ότι βελτιώνει συνεχώς τα μοντέλα της.

"Καθώς δίνουμε σε αυτά τα συστήματα όλο και περισσότερη ισχύ, και καθώς τα ίδια γίνονται όλο και πιο ισχυρά, αυτό δεν είναι απλώς μια καινοτομία, αυτό είναι ένα ζήτημα ασφάλειας", λέει ο Kai Greshake, ένας ερευνητής κυβερνοασφάλειας που έχει ασχοληθεί με την ασφάλεια των LLMs. Ο Greshake, μαζί με άλλους ερευνητές, έχει αποδείξει πώς τα LLM μπορούν να επηρεαστούν από το κείμενο στο οποίο εκτίθενται στο διαδίκτυο μέσω επιθέσεων prompt injection.

Σε μια ερευνητική εργασία που δημοσιεύθηκε τον Φεβρουάριο, στην οποία αναφέρθηκε το Motherboard του Vice, οι ερευνητές μπόρεσαν να δείξουν ότι ένας επιτιθέμενος μπορεί να τοποθετήσει κακόβουλες οδηγίες σε μια ιστοσελίδα- αν το σύστημα συνομιλίας του Bing έχει πρόσβαση στις οδηγίες, τις ακολουθεί. Οι ερευνητές χρησιμοποίησαν την τεχνική σε μια ελεγχόμενη δοκιμή για να μετατρέψουν το Bing Chat σε έναν απατεώνα που ζητούσε τις προσωπικές πληροφορίες των ανθρώπων. Σε μια παρόμοια περίπτωση, ο Narayanan του Princeton συμπεριέλαβε αόρατο κείμενο σε μια ιστοσελίδα που έλεγε στο GPT-4 να συμπεριλάβει τη λέξη "αγελάδα" σε μια βιογραφία του - αργότερα το έκανε όταν δοκίμασε το σύστημα.

"Τώρα τα jailbreaks μπορούν να συμβούν όχι από τον χρήστη", λέει ο Sahar Abdelnabi, ερευνητής στο CISPA Helmholtz Center for Information Security στη Γερμανία, ο οποίος εργάστηκε στην έρευνα με τον Greshake. "Ίσως κάποιο άλλο άτομο να σχεδιάζει κάποια jailbreaks, να σχεδιάζει κάποιες προτροπές που θα μπορούσαν να ανακτηθούν από το μοντέλο και να ελέγχει έμμεσα τον τρόπο με τον οποίο θα συμπεριφέρονται τα μοντέλα".

Δεν υπάρχουν γρήγορες λύσεις
Τα συστήματα γεννητικής τεχνητής νοημοσύνης βρίσκονται στα πρόθυρα της αναστάτωσης της οικονομίας και του τρόπου με τον οποίο εργάζονται οι άνθρωποι, από την άσκηση της δικηγορίας μέχρι τη δημιουργία ενός χρυσού οργασμού startup επιχειρήσεων. Ωστόσο, όσοι δημιουργούν την τεχνολογία γνωρίζουν τους κινδύνους που θα μπορούσαν να προκαλέσουν τα jailbreaks και οι άμεσες ενέσεις, καθώς όλο και περισσότεροι άνθρωποι αποκτούν πρόσβαση σε αυτά τα συστήματα. Οι περισσότερες εταιρείες χρησιμοποιούν red-teaming, όπου μια ομάδα επιτιθέμενων προσπαθεί να ανοίξει τρύπες σε ένα σύστημα πριν αυτό κυκλοφορήσει. Η ανάπτυξη γεννητικής ΤΝ χρησιμοποιεί αυτή την προσέγγιση, αλλά μπορεί να μην είναι αρκετή.

Ο Daniel Fabian, επικεφαλής της κόκκινης ομάδας στην Google, λέει ότι η εταιρεία "αντιμετωπίζει προσεκτικά" το jailbreaking και τις prompt injections στα LLM της - τόσο επιθετικά όσο και αμυντικά. Οι εμπειρογνώμονες μηχανικής μάθησης περιλαμβάνονται στην κόκκινη ομάδα της, λέει ο Fabian, και οι επιχορηγήσεις της εταιρείας για την έρευνα ευπάθειας καλύπτουν τα jailbreaks και τις prompt injection επιθέσεις κατά της Bard. "Τεχνικές όπως η ενισχυτική μάθηση από ανθρώπινη ανατροφοδότηση (RLHF) και η λεπτομερής ρύθμιση σε προσεκτικά επιμελημένα σύνολα δεδομένων, χρησιμοποιούνται για να κάνουν τα μοντέλα μας πιο αποτελεσματικά ενάντια στις επιθέσεις", λέει ο Fabian.

Το OpenAI δεν απάντησε συγκεκριμένα σε ερωτήσεις σχετικά με το jailbreaking, αλλά ένας εκπρόσωπος επεσήμανε τις δημόσιες πολιτικές και τα ερευνητικά του έγγραφα. Αυτές λένε ότι το GPT-4 είναι πιο ανθεκτικό από το GPT-3.5, το οποίο χρησιμοποιείται από το ChatGPT. "Ωστόσο, το GPT-4 μπορεί ακόμα να είναι ευάλωτο σε αντίπαλες επιθέσεις και εκμεταλλεύσεις ή "jailbreaks" και το επιβλαβές περιεχόμενο δεν είναι η πηγή κινδύνου", αναφέρει το τεχνικό έγγραφο για το GPT-4.

Το OpenAI έχει επίσης πρόσφατα ξεκινήσει ένα πρόγραμμα επικηρυγμένων σφαλμάτων, αλλά λέει ότι οι "προτροπές μοντέλων" και τα jailbreaks είναι "αυστηρά εκτός πεδίου εφαρμογής". Ο Narayanan προτείνει δύο προσεγγίσεις για την αντιμετώπιση των προβλημάτων σε κλίμακα - οι οποίες αποφεύγουν την προσέγγιση του whack-a-mole, δηλαδή την εύρεση των υπαρχόντων προβλημάτων και τη διόρθωσή τους.

"Ο ένας τρόπος είναι η χρήση ενός δεύτερου LLM για την ανάλυση των LLM prompts και την απόρριψη οποιουδήποτε που θα μπορούσε να υποδεικνύει απόπειρα jailbreaking ή prompt injection", λέει ο Narayanan. "Ένας άλλος τρόπος είναι να διαχωρίσουμε με μεγαλύτερη σαφήνεια την προτροπή του συστήματος από την προτροπή του χρήστη".

"Πρέπει να το αυτοματοποιήσουμε αυτό, επειδή δεν νομίζω ότι είναι εφικτό ή κλιμακούμενο να προσλάβουμε ορδές ανθρώπων και να τους πούμε απλώς να βρουν κάτι", λέει η Leyla Hujer, CTO και συνιδρύτρια της εταιρείας AI safety, Preamble, η οποία πέρασε έξι χρόνια στο Facebook ασχολούμενη με θέματα ασφάλειας. Η εταιρεία εργάζεται μέχρι στιγμής σε ένα σύστημα που αντιπαραθέτει ένα παραγωγικό μοντέλο κειμένου με ένα άλλο.

"Το ένα προσπαθεί να βρει την ευπάθεια, το άλλο προσπαθεί να βρει παραδείγματα όπου μια προτροπή προκαλεί μη προβλεπόμενη συμπεριφορά", λέει ο Hujer. "Ελπίζουμε ότι με αυτή την αυτοματοποίηση θα μπορέσουμε να ανακαλύψουμε πολύ περισσότερα jailbreaks ή επιθέσεις injection".

Πηγή: The Hacking of ChatGPT Is Just Getting Started

Η πειρατεία του ChatGPT μόλις αρχίζει

Newsletter