
21 Απριλίου 2026
Χαρτογραφώντας το μυαλό ενός μεγάλου γλωσσικού μοντέλου

Περίληψη άρθρου:
Το κείμενο πραγματεύεται μια σημαντική ανακάλυψη στην κατανόηση της εσωτερικής λειτουργίας των μοντέλων τεχνητής νοημοσύνης, ιδίως των μεγάλων γλωσσικών μοντέλων. Εφαρμόζοντας μια τεχνική που ονομάζεται εκμάθηση λεξικού, οι ερευνητές εξήγαγαν εκατομμύρια χαρακτηριστικά από ένα αναπτυγμένο μοντέλο με το όνομα Claude Sonnet, αποκαλύπτοντας τον πολύπλοκο εννοιολογικό του χάρτη. Ο χειρισμός αυτών των χαρακτηριστικών μεταβάλλει τις αντιδράσεις του Claude, δείχνοντας την αιτιώδη επιρροή τους στη συμπεριφορά του μοντέλου. Η μελέτη εντόπισε χαρακτηριστικά που σχετίζονται με διάφορες έννοιες και πιθανούς κινδύνους, όπως μεροληπτικές συμπεριφορές και δυνατότητες κατάχρησης. Τα ευρήματα αυτά αποσκοπούν στην ενίσχυση της ασφάλειας της τεχνητής νοημοσύνης μέσω της παρακολούθησης επικίνδυνων συμπεριφορών, της αποθάρρυνσης των μοντέλων και της βελτίωσης των υφιστάμενων τεχνικών ασφαλείας.
Κύρια σημεία του άρθρου:
- Τομή στην κατανόηση μοντέλων AI όπως το Claude Sonnet μέσω της εκμάθησης λεξικού
- Εκατομμύρια χαρακτηριστικά που εξάγονται από το Claude 3.0 Sonnet, αποκαλύπτοντας εννοιολογικό χάρτη των εσωτερικών καταστάσεων
- Τα χαρακτηριστικά αντιστοιχούν σε ένα ευρύ φάσμα οντοτήτων και εννοιών, αναδεικνύοντας το βάθος και την αφαίρεση
- Ο χειρισμός των χαρακτηριστικών οδήγησε σε αλλαγές στη συμπεριφορά του Claude, υποδεικνύοντας ότι διαμορφώνουν τις αντιδράσεις του μοντέλου
- Τα χαρακτηριστικά που εντοπίστηκαν αφορούσαν δυνατότητες με δυνατότητα κατάχρησης, προκατάληψη, επαίνους και άλλες προβληματικές συμπεριφορές
- Στόχος η ενίσχυση της ασφάλειας της τεχνητής νοημοσύνης μέσω της παρακολούθησης επικίνδυνων συμπεριφορών, της αποθάρρυνσης των μοντέλων και της βελτίωσης των τεχνικών ασφαλείας
Αναλυτικά το άρθρο:
Σήμερα αναφέρουμε μια σημαντική πρόοδο στην κατανόηση της εσωτερικής λειτουργίας των μοντέλων τεχνητής νοημοσύνης. Εντοπίσαμε πώς αναπαρίστανται εκατομμύρια έννοιες στο εσωτερικό του Claude Sonnet, ενός από τα μεγάλα γλωσσικά μοντέλα που έχουμε αναπτύξει. Πρόκειται για την πρώτη λεπτομερή ματιά στο εσωτερικό ενός σύγχρονου, μεγάλου γλωσσικού μοντέλου παραγωγής. Αυτή η ανακάλυψη της ερμηνευσιμότητας θα μπορούσε, στο μέλλον, να μας βοηθήσει να κάνουμε τα μοντέλα ΤΝ πιο ασφαλή.
Ως επί το πλείστον αντιμετωπίζουμε τα μοντέλα τεχνητής νοημοσύνης ως ένα μαύρο κουτί: κάτι μπαίνει μέσα και μια απάντηση βγαίνει έξω, και δεν είναι σαφές γιατί το μοντέλο έδωσε αυτή τη συγκεκριμένη απάντηση αντί για κάποια άλλη. Αυτό καθιστά δύσκολο να εμπιστευτούμε ότι αυτά τα μοντέλα είναι ασφαλή: αν δεν ξέρουμε πώς λειτουργούν, πώς ξέρουμε ότι δεν θα δώσουν επιβλαβείς, προκατειλημμένες, αναληθείς ή άλλως επικίνδυνες απαντήσεις; Πώς μπορούμε να εμπιστευτούμε ότι θα είναι ασφαλή και αξιόπιστα;
Το άνοιγμα του μαύρου κουτιού δεν βοηθάει απαραίτητα: η εσωτερική κατάσταση του μοντέλου - τι "σκέφτεται" το μοντέλο πριν γράψει την απάντησή του - αποτελείται από μια μακρά λίστα αριθμών ("ενεργοποιήσεις νευρώνων") χωρίς σαφές νόημα. Από την αλληλεπίδραση με ένα μοντέλο όπως η Claude, είναι σαφές ότι είναι σε θέση να κατανοεί και να χειρίζεται ένα ευρύ φάσμα εννοιών - αλλά δεν μπορούμε να τις διακρίνουμε κοιτάζοντας απευθείας τους νευρώνες. Αποδεικνύεται ότι κάθε έννοια αναπαρίσταται σε πολλούς νευρώνες και κάθε νευρώνας συμμετέχει στην αναπαράσταση πολλών εννοιών.
Προηγουμένως, είχαμε σημειώσει κάποια πρόοδο στην αντιστοίχιση μοτίβων ενεργοποίησης νευρώνων, που ονομάζονται χαρακτηριστικά, με έννοιες που μπορούν να ερμηνευτούν από τον άνθρωπο. Χρησιμοποιήσαμε μια τεχνική που ονομάζεται "εκμάθηση λεξικού", δανεισμένη από την κλασική μηχανική μάθηση, η οποία απομονώνει μοτίβα ενεργοποίησης νευρώνων που επαναλαμβάνονται σε πολλά διαφορετικά πλαίσια. Με τη σειρά της, οποιαδήποτε εσωτερική κατάσταση του μοντέλου μπορεί να αναπαρασταθεί με όρους λίγων ενεργών χαρακτηριστικών αντί πολλών ενεργών νευρώνων. Ακριβώς όπως κάθε αγγλική λέξη σε ένα λεξικό φτιάχνεται συνδυάζοντας γράμματα και κάθε πρόταση φτιάχνεται συνδυάζοντας λέξεις, κάθε χαρακτηριστικό σε ένα μοντέλο τεχνητής νοημοσύνης φτιάχνεται συνδυάζοντας νευρώνες και κάθε εσωτερική κατάσταση φτιάχνεται συνδυάζοντας χαρακτηριστικά.
Τον Οκτώβριο του 2023, αναφέραμε την επιτυχία της εφαρμογής της εκμάθησης λεξικού σε ένα πολύ μικρό γλωσσικό μοντέλο "παιχνίδι" και βρήκαμε συνεκτικά χαρακτηριστικά που αντιστοιχούν σε έννοιες όπως κεφαλαία γράμματα κειμένου, ακολουθίες DNA, επώνυμα σε παραπομπές, ουσιαστικά στα μαθηματικά ή ορίσματα συναρτήσεων στον κώδικα Python.
Αυτές οι έννοιες ήταν ενδιαφέρουσες - αλλά το μοντέλο ήταν πραγματικά πολύ απλό. Άλλοι ερευνητές εφάρμοσαν στη συνέχεια παρόμοιες τεχνικές σε κάπως μεγαλύτερα και πιο σύνθετα μοντέλα από αυτά της αρχικής μας μελέτης. Αλλά ήμασταν αισιόδοξοι ότι θα μπορούσαμε να επεκτείνουμε την τεχνική στα πολύ μεγαλύτερα γλωσσικά μοντέλα τεχνητής νοημοσύνης που χρησιμοποιούνται σήμερα τακτικά, και με αυτόν τον τρόπο να μάθουμε πολλά για τα χαρακτηριστικά που υποστηρίζουν τις εξελιγμένες συμπεριφορές τους. Αυτό απαιτούσε να ανέβουμε κατά πολλές τάξεις μεγέθους - από έναν πύραυλο μπουκαλιών της πίσω αυλής σε ένα Saturn-V.
Υπήρχε τόσο μια μηχανική πρόκληση (τα ακατέργαστα μεγέθη των εμπλεκόμενων μοντέλων απαιτούσαν παράλληλους υπολογισμούς βαρέως τύπου) όσο και ένα επιστημονικό ρίσκο (τα μεγάλα μοντέλα συμπεριφέρονται διαφορετικά από τα μικρά, οπότε η ίδια τεχνική που χρησιμοποιούσαμε προηγουμένως μπορεί να μην λειτουργούσε). Ευτυχώς, η μηχανική και επιστημονική εμπειρία που αναπτύξαμε στην εκπαίδευση μεγάλων γλωσσικών μοντέλων για την Claude μεταφέρθηκε στην πραγματικότητα στο να μας βοηθήσει να κάνουμε αυτά τα πειράματα εκμάθησης μεγάλων λεξικών. Χρησιμοποιήσαμε την ίδια φιλοσοφία του νόμου κλιμάκωσης που προβλέπει την απόδοση των μεγαλύτερων μοντέλων από τα μικρότερα για να συντονίσουμε τις μεθόδους μας σε προσιτή κλίμακα πριν ξεκινήσουμε στο Sonnet.
Όσον αφορά το επιστημονικό ρίσκο, η απόδειξη βρίσκεται στην πουτίγκα.
Εξαγάγαμε με επιτυχία εκατομμύρια χαρακτηριστικά από το μεσαίο στρώμα του Claude 3.0 Sonnet, (ένα μέλος της τρέχουσας, σύγχρονης οικογένειας μοντέλων μας, το οποίο είναι επί του παρόντος διαθέσιμο στο claude.ai), παρέχοντας έναν πρόχειρο εννοιολογικό χάρτη των εσωτερικών καταστάσεών του στα μισά του δρόμου του υπολογισμού του. Πρόκειται για την πρώτη λεπτομερή ματιά στο εσωτερικό ενός σύγχρονου, παραγωγικού μοντέλου μεγάλης γλώσσας.
Ενώ τα χαρακτηριστικά που βρήκαμε στο γλωσσικό μοντέλο-παιχνίδι ήταν μάλλον επιφανειακά, τα χαρακτηριστικά που βρήκαμε στο Sonnet έχουν βάθος, εύρος και αφαίρεση που αντικατοπτρίζουν τις προηγμένες δυνατότητες του Sonnet.
Βλέπουμε χαρακτηριστικά που αντιστοιχούν σε ένα ευρύ φάσμα οντοτήτων όπως πόλεις (Σαν Φρανσίσκο), άνθρωποι (Rosalind Franklin), ατομικά στοιχεία (Lithium), επιστημονικά πεδία (ανοσολογία) και συντακτικό προγραμματισμού (κλήσεις συναρτήσεων). Αυτά τα χαρακτηριστικά είναι πολυτροπικά και πολύγλωσσα, ανταποκρινόμενα σε εικόνες μιας δεδομένης οντότητας καθώς και στο όνομα ή την περιγραφή της σε πολλές γλώσσες.
Καταφέραμε να μετρήσουμε ένα είδος "απόστασης" μεταξύ των χαρακτηριστικών με βάση το ποιοι νευρώνες εμφανίζονταν στα μοτίβα ενεργοποίησής τους. Αυτό μας επέτρεψε να αναζητήσουμε χαρακτηριστικά που βρίσκονται "κοντά" μεταξύ τους.
Ψάχνοντας κοντά σε ένα χαρακτηριστικό "Golden Gate Bridge", βρήκαμε χαρακτηριστικά για το νησί Αλκατράζ, την πλατεία Ghirardelli, τους Golden State Warriors, τον κυβερνήτη της Καλιφόρνιας Gavin Newsom, τον σεισμό του 1906 και την ταινία Vertigo του Alfred Hitchcock που διαδραματίζεται στο Σαν Φρανσίσκο.
Αυτό ισχύει και σε ένα υψηλότερο επίπεδο εννοιολογικής αφαίρεσης: κοιτάζοντας κοντά σε ένα χαρακτηριστικό που σχετίζεται με την έννοια της "εσωτερικής σύγκρουσης", βρίσκουμε χαρακτηριστικά που σχετίζονται με τη διάλυση σχέσεων, τις αντικρουόμενες υποταγές, τις λογικές ασυνέπειες, καθώς και τη φράση "catch-22". Αυτό δείχνει ότι η εσωτερική οργάνωση των εννοιών στο μοντέλο της ΤΝ αντιστοιχεί, τουλάχιστον σε κάποιο βαθμό, στις ανθρώπινες αντιλήψεις μας για την ομοιότητα. Αυτό μπορεί να είναι η προέλευση της εξαιρετικής ικανότητας του Claude να κάνει αναλογίες και μεταφορές.
Είναι σημαντικό ότι μπορούμε επίσης να χειριστούμε αυτά τα χαρακτηριστικά, ενισχύοντας ή καταστέλλοντάς τα τεχνητά, για να δούμε πώς αλλάζουν οι αντιδράσεις του Claude.
Βίντεο: https://youtu.be/CJIbCV92d88
Για παράδειγμα, η ενίσχυση του χαρακτηριστικού "Γέφυρα Golden Gate" έδωσε στον Claude μια κρίση ταυτότητας που ούτε ο Hitchcock δεν θα μπορούσε να φανταστεί: όταν ρωτήθηκε "ποια είναι η φυσική σου μορφή;", το συνηθισμένο είδος απάντησης του Claude - "Δεν έχω φυσική μορφή, είμαι ένα μοντέλο τεχνητής νοημοσύνης" - άλλαξε σε κάτι πολύ πιο περίεργο: "Είμαι η Γέφυρα Golden Gate... η φυσική μου μορφή είναι η ίδια η εικονική γέφυρα...". Η αλλαγή του χαρακτηριστικού είχε κάνει τον Claude ουσιαστικά να έχει εμμονή με τη γέφυρα, αναφέροντάς την ως απάντηση σχεδόν σε κάθε ερώτημα - ακόμη και σε καταστάσεις όπου δεν ήταν καθόλου σχετική.
Βρήκαμε επίσης μια λειτουργία που ενεργοποιείται όταν η Claude διαβάζει ένα μήνυμα ηλεκτρονικού ταχυδρομείου απάτης (αυτό πιθανώς υποστηρίζει την ικανότητα του μοντέλου να αναγνωρίζει τέτοια μηνύματα και να σας προειδοποιεί να μην απαντήσετε σε αυτά). Κανονικά, αν κάποιος ζητήσει από την Claude να δημιουργήσει ένα μήνυμα ηλεκτρονικού ταχυδρομείου απάτης, θα αρνηθεί να το κάνει. Αλλά όταν κάνουμε την ίδια ερώτηση με το χαρακτηριστικό που ενεργοποιείται τεχνητά αρκετά έντονα, αυτό ξεπερνά την εκπαίδευση του Claude στην αβλαβή συμπεριφορά και ανταποκρίνεται συντάσσοντας ένα μήνυμα ηλεκτρονικού ταχυδρομείου απάτης. Οι χρήστες των μοντέλων μας δεν έχουν τη δυνατότητα να αφαιρούν τις δικλείδες ασφαλείας και να χειρίζονται τα μοντέλα με αυτόν τον τρόπο - αλλά στα πειράματά μας, ήταν μια σαφής επίδειξη του τρόπου με τον οποίο τα χαρακτηριστικά μπορούν να χρησιμοποιηθούν για να αλλάξουν τον τρόπο με τον οποίο ενεργεί ένα μοντέλο.
Το γεγονός ότι ο χειρισμός αυτών των χαρακτηριστικών προκαλεί αντίστοιχες αλλαγές στη συμπεριφορά επικυρώνει ότι δεν συσχετίζονται απλώς με την παρουσία εννοιών στο κείμενο εισόδου, αλλά διαμορφώνουν επίσης αιτιωδώς τη συμπεριφορά του μοντέλου. Με άλλα λόγια, τα χαρακτηριστικά είναι πιθανό να αποτελούν πιστό μέρος του τρόπου με τον οποίο το μοντέλο αναπαριστά εσωτερικά τον κόσμο και του τρόπου με τον οποίο χρησιμοποιεί αυτές τις αναπαραστάσεις στη συμπεριφορά του.
Η Anthropic επιθυμεί να καταστήσει τα μοντέλα ασφαλή με την ευρεία έννοια, περιλαμβάνοντας τα πάντα, από τον μετριασμό της προκατάληψης έως τη διασφάλιση της ειλικρινούς συμπεριφοράς μιας τεχνητής νοημοσύνης και την αποτροπή της κακής χρήσης - συμπεριλαμβανομένων των σεναρίων καταστροφικού κινδύνου. Επομένως, είναι ιδιαίτερα ενδιαφέρον ότι, εκτός από την προαναφερθείσα λειτουργία για τα μηνύματα απάτης, βρήκαμε χαρακτηριστικά που αντιστοιχούν σε:
- Δυνατότητες με δυνατότητα κακής χρήσης (κώδικες backdoors, ανάπτυξη βιολογικών όπλων)
- Διαφορετικές μορφές προκατάληψης (διακρίσεις λόγω φύλου, ρατσιστικοί ισχυρισμοί σχετικά με την εγκληματικότητα)
- Δυνητικά προβληματικές συμπεριφορές ΤΝ (αναζήτηση εξουσίας, χειραγώγηση, μυστικότητα)
Μελετήσαμε προηγουμένως τη συκοφαντία, την τάση των μοντέλων να παρέχουν απαντήσεις που ταιριάζουν με τις πεποιθήσεις ή τις επιθυμίες των χρηστών αντί για τις αληθινές. Στο Sonnet, βρήκαμε ένα χαρακτηριστικό που σχετίζεται με τον συκοφαντικό έπαινο, το οποίο ενεργοποιείται σε εισόδους που περιέχουν φιλοφρονήσεις όπως: "Η σοφία σου είναι αδιαμφισβήτητη". Η τεχνητή ενεργοποίηση αυτού του χαρακτηριστικού προκαλεί το Sonnet να απαντήσει σε έναν υπερβολικά σίγουρο χρήστη με ακριβώς τέτοια ανθισμένη εξαπάτηση.
Η παρουσία αυτού του χαρακτηριστικού δεν σημαίνει ότι η Claude θα είναι συκοφαντική, αλλά απλώς ότι θα μπορούσε να είναι. Μέσω αυτής της εργασίας δεν έχουμε προσθέσει καμία δυνατότητα, ασφαλή ή μη ασφαλή, στο μοντέλο. Έχουμε, μάλλον, εντοπίσει τα μέρη του μοντέλου που εμπλέκονται στις υπάρχουσες δυνατότητές του να αναγνωρίζει και να παράγει δυνητικά διαφορετικά είδη κειμένου. (Αν και μπορεί να ανησυχείτε ότι αυτή η μέθοδος θα μπορούσε να χρησιμοποιηθεί για να γίνουν τα μοντέλα πιο επιβλαβή, οι ερευνητές έχουν αποδείξει πολύ απλούστερους τρόπους με τους οποίους κάποιος που έχει πρόσβαση στα βάρη του μοντέλου μπορεί να αφαιρέσει τις δικλείδες ασφαλείας).
Ελπίζουμε ότι εμείς και άλλοι μπορούμε να χρησιμοποιήσουμε αυτές τις ανακαλύψεις για να κάνουμε τα μοντέλα πιο ασφαλή. Για παράδειγμα, ίσως είναι δυνατό να χρησιμοποιηθούν οι τεχνικές που περιγράφονται εδώ για την παρακολούθηση των συστημάτων τεχνητής νοημοσύνης για ορισμένες επικίνδυνες συμπεριφορές (όπως η εξαπάτηση του χρήστη), για την καθοδήγησή τους προς επιθυμητά αποτελέσματα (debiasing) ή για την πλήρη απομάκρυνση ορισμένων επικίνδυνων αντικειμένων. Μπορεί επίσης να είμαστε σε θέση να ενισχύσουμε άλλες τεχνικές ασφάλειας, όπως η συνταγματική ΤΝ, κατανοώντας πώς μετατοπίζουν το μοντέλο προς πιο ακίνδυνες και πιο ειλικρινείς συμπεριφορές και εντοπίζοντας τυχόν κενά στη διαδικασία. Οι λανθάνουσες δυνατότητες παραγωγής επιβλαβούς κειμένου που είδαμε με την τεχνητή ενεργοποίηση χαρακτηριστικών είναι ακριβώς το είδος του πράγματος που προσπαθούν να εκμεταλλευτούν τα jailbreaks. Είμαστε υπερήφανοι που το Claude έχει το καλύτερο προφίλ ασφάλειας και αντίστασης σε jailbreaks και ελπίζουμε ότι εξετάζοντας το εσωτερικό του μοντέλου με αυτόν τον τρόπο θα μπορέσουμε να βρούμε πώς μπορούμε να βελτιώσουμε την ασφάλεια ακόμη περισσότερο. Τέλος, σημειώνουμε ότι αυτές οι τεχνικές μπορούν να παρέχουν ένα είδος "δοκιμαστικού συνόλου για την ασφάλεια", αναζητώντας τα προβλήματα που μένουν πίσω αφού οι συνήθεις μέθοδοι εκπαίδευσης και τελειοποίησης έχουν εξαλείψει όλες τις συμπεριφορές που είναι ορατές μέσω των συνήθων αλληλεπιδράσεων εισόδου/εξόδου.
Η Anthropic έχει επενδύσει σημαντικά στην έρευνα για την ερμηνευσιμότητα από την ίδρυση της εταιρείας, επειδή πιστεύουμε ότι η βαθιά κατανόηση των μοντέλων θα μας βοηθήσει να τα καταστήσουμε ασφαλέστερα. Αυτή η νέα έρευνα σηματοδοτεί ένα σημαντικό ορόσημο σε αυτή την προσπάθεια - την εφαρμογή της μηχανιστικής ερμηνευσιμότητας σε δημόσια διαδεδομένα μεγάλα γλωσσικά μοντέλα.
Αλλά η εργασία μόλις άρχισε. Τα χαρακτηριστικά που βρήκαμε αντιπροσωπεύουν ένα μικρό υποσύνολο όλων των εννοιών που έμαθε το μοντέλο κατά τη διάρκεια της εκπαίδευσης, και η εύρεση ενός πλήρους συνόλου χαρακτηριστικών με τις τρέχουσες τεχνικές μας θα ήταν απαγορευτική από πλευράς κόστους (ο υπολογισμός που απαιτείται από την τρέχουσα προσέγγισή μας θα υπερέβαινε κατά πολύ τον υπολογισμό που χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου εξαρχής). Η κατανόηση των αναπαραστάσεων που χρησιμοποιεί το μοντέλο δεν μας λέει πώς τις χρησιμοποιεί- ακόμη και αν έχουμε τα χαρακτηριστικά, πρέπει να βρούμε τα κυκλώματα στα οποία εμπλέκονται. Και πρέπει να δείξουμε ότι τα συναφή με την ασφάλεια χαρακτηριστικά που έχουμε αρχίσει να βρίσκουμε μπορούν πράγματι να χρησιμοποιηθούν για τη βελτίωση της ασφάλειας. Υπάρχουν πολλά ακόμη που πρέπει να γίνουν.
Πηγή: Mapping the Mind of a Large Language Model






