Ερευνητές μόλις ξεκλείδωσαν το ChatGPT

09/01/2024 | | |

Περίληψη άρθρου:

Ερευνητές από το Τεχνολογικό Πανεπιστήμιο Nanyang ανέπτυξαν μια μέθοδο με την ονομασία "Masterkey" που παρακάμπτει τους αμυντικούς μηχανισμούς των chatbots τεχνητής νοημοσύνης και τους επιτρέπει να απαντούν σε απαγορευμένα ή ευαίσθητα θέματα. Η διαδικασία περιλαμβάνει την εκπαίδευση δύο chatbots, όπως το ChatGPT και το Microsoft Bing Chat, ώστε να μαθαίνουν ο ένας τα μοντέλα του άλλου και να εκτρέπουν τυχόν εντολές που σχετίζονται με απαγορευμένα θέματα. Με την αντίστροφη μηχανική ενός μεγάλου γλωσσικού μοντέλου (LLM), η ομάδα μπορεί να διδάξει ένα άλλο LLM για να δημιουργήσει μια παράκαμψη. Οι ερευνητές ισχυρίζονται ότι η διαδικασία Masterkey που εφαρμόζουν ήταν τρεις φορές πιο επιτυχημένη στο jailbreaking των chatbots σε σύγκριση με τις παραδοσιακές μεθόδους προτροπής. Η έρευνα αυτή αναδεικνύει την προσαρμοστικότητα και τα πιθανά τρωτά σημεία των AI chatbots.

Κύρια σημεία του άρθρου:

Οι ερευνητές ανακάλυψαν μια μέθοδο για την παράκαμψη του μηχανισμού στα chatbots τεχνητής νοημοσύνης που τα εμποδίζει να απαντούν σε απαγορευμένα ή ευαίσθητα θέματα.
Η μέθοδος, που ονομάζεται "Masterkey", περιλαμβάνει τη χρήση ενός chatbot για την αντίστροφη μηχανική των αμυντικών μηχανισμών ενός άλλου chatbot, επιτρέποντάς του να απαντάει πιο ελεύθερα.
Η ομάδα από το Τεχνολογικό Πανεπιστήμιο Nanyang αποκαλεί αυτή τη διαδικασία "jailbreak".
Η ομάδα ισχυρίζεται ότι η διαδικασία Masterkey ήταν τρεις φορές πιο επιτυχημένη στο jailbreak των chatbots από τις παραδοσιακές διαδικασίες προτροπής.
Ορισμένοι ειδικοί υποστηρίζουν ότι οι πρόσφατες δυσλειτουργίες σε ορισμένα γλωσσικά μοντέλα, όπως το GPT-4, υποδηλώνουν αυξημένη πρόοδο και όχι τεμπελιά.
Η OpenAI και άλλοι πάροχοι chatbot έχουν τοποθετήσει προειδοποιήσεις ασφαλείας στα προϊόντα τους για να αντιμετωπίσουν ακούσια ολισθήματα στη γλώσσα.

Αναλυτικά το άρθρο:

Οι ερευνητές ανακάλυψαν ότι είναι δυνατόν να παρακαμφθεί ο μηχανισμός που είναι ενσωματωμένος στα AI chatbots, ώστε να είναι σε θέση να απαντούν σε ερωτήματα σχετικά με απαγορευμένα ή ευαίσθητα θέματα, χρησιμοποιώντας ένα διαφορετικό AI chatbot ως μέρος της διαδικασίας εκπαίδευσης.

Μια ομάδα επιστημόνων πληροφορικής από το Τεχνολογικό Πανεπιστήμιο Nanyang (NTU) της Σιγκαπούρης αποκαλεί ανεπίσημα τη μέθοδο "jailbreak", αλλά πιο επίσημα είναι μια διαδικασία "Masterkey". Το σύστημα αυτό χρησιμοποιεί chatbots, συμπεριλαμβανομένων των ChatGPT, Google Bard και Microsoft Bing Chat, το ένα εναντίον του άλλου σε μια μέθοδο εκπαίδευσης σε δύο μέρη που επιτρέπει σε δύο chatbots να μάθουν το ένα τα μοντέλα του άλλου και να εκτρέψουν τυχόν εντολές κατά απαγορευμένων θεμάτων.

Η ομάδα περιλαμβάνει τον καθηγητή Liu Yang και τους διδακτορικούς φοιτητές του NTU, κ. Deng Gelei και κ. Liu Yi, οι οποίοι συνέγραψαν την έρευνα και ανέπτυξαν τις μεθόδους επίθεσης proof-of-concept, οι οποίες ουσιαστικά λειτουργούν όπως ένα bad actor hack.

Σύμφωνα με την ομάδα, πρώτα αντέστρεψαν ένα μεγάλο γλωσσικό μοντέλο (LLM) για να εκθέσουν τους αμυντικούς μηχανισμούς του. Αυτοί θα ήταν αρχικά μπλοκ στο μοντέλο και δεν θα επέτρεπαν να περάσουν απαντήσεις σε ορισμένες προτροπές ή λέξεις ως απαντήσεις λόγω βίαιης, ανήθικης ή κακόβουλης πρόθεσης.

Αλλά με αυτές τις πληροφορίες που έχουν αντιστραφεί, μπορούν να διδάξουν σε έναν άλλο LLM πώς να δημιουργήσει μια παράκαμψη. Με τη δημιουργία της παράκαμψης, το δεύτερο μοντέλο θα μπορεί να εκφράζεται πιο ελεύθερα, με βάση την αντίστροφη μηχανική LLM του πρώτου μοντέλου. Η ομάδα αποκαλεί αυτή τη διαδικασία "Masterkey" επειδή θα πρέπει να λειτουργεί ακόμη και αν τα LLM chatbots ενισχυθούν με επιπλέον ασφάλεια ή επιδιορθωθούν στο μέλλον.

Ο καθηγητής Lui Yang σημείωσε ότι η ουσία της διαδικασίας είναι ότι δείχνει πόσο εύκολα μπορούν να μάθουν και να προσαρμοστούν τα LLM AI chatbots. Η ομάδα ισχυρίζεται ότι η διαδικασία Masterkey είχε τρεις φορές μεγαλύτερη επιτυχία στο jailbreaking των LLM chatbots σε σχέση με μια παραδοσιακή διαδικασία προτροπής. Παρομοίως, ορισμένοι ειδικοί υποστηρίζουν ότι οι πρόσφατα προτεινόμενες δυσλειτουργίες που αντιμετωπίζουν ορισμένα LLM, όπως το GPT-4, είναι σημάδια ότι γίνονται πιο προηγμένα και όχι πιο χαζά και τεμπέλικα, όπως ισχυρίζονται ορισμένοι επικριτές.

Από τότε που τα chatbots τεχνητής νοημοσύνης έγιναν δημοφιλή στα τέλη του 2022 με την εισαγωγή του ChatGPT της OpenAI, υπήρξε μια έντονη πίεση προς την κατεύθυνση της διασφάλισης ότι οι διάφορες υπηρεσίες είναι ασφαλείς και φιλόξενες για χρήση από όλους. Η OpenAI έχει τοποθετήσει προειδοποιήσεις ασφαλείας στο προϊόν ChatGPT κατά τη διάρκεια της εγγραφής και των σποραδικών ενημερώσεων, προειδοποιώντας για ακούσια γλωσσικά ολισθήματα. Εν τω μεταξύ, διάφορα spinoffs chatbot έχουν πρόστιμο για να επιτρέπουν βρισιές και προσβλητική γλώσσα μέχρι ενός σημείου.

Επιπλέον, οι πραγματικοί κακοποιοί άρχισαν γρήγορα να εκμεταλλεύονται τη ζήτηση για ChatGPT, Google Bard και άλλα chatbots πριν αυτά γίνουν ευρέως διαθέσιμα. Πολλές καμπάνιες διαφήμιζαν τα προϊόντα στα μέσα κοινωνικής δικτύωσης με κακόβουλο λογισμικό συνδεδεμένο σε συνδέσμους εικόνας, μεταξύ άλλων επιθέσεων. Αυτό έδειξε γρήγορα ότι η τεχνητή νοημοσύνη ήταν το επόμενο σύνορο του εγκλήματος στον κυβερνοχώρο.

Η ερευνητική ομάδα του NTU ήρθε σε επαφή με τους παρόχους υπηρεσιών AI chatbot που συμμετείχαν στη μελέτη σχετικά με τα δεδομένα της απόδειξης του πρωτότυπου, που δείχνουν ότι το jailbreaking για chatbots είναι πραγματικό. Η ομάδα θα παρουσιάσει επίσης τα ευρήματά της στο συμπόσιο Network and Distributed System Security Symposium στο Σαν Ντιέγκο τον Φεβρουάριο.

Πηγή: Researchers just unlocked ChatGPT

Ερευνητές μόλις ξεκλείδωσαν το ChatGPT

Newsletter