
20 Απριλίου 2026
Η τεχνητή νοημοσύνη είναι ένα μαύρο κουτί. Η Anthropic βρήκε έναν τρόπο να κοιτάξει μέσα.

Περίληψη άρθρου:
Στην προσπάθεια κατανόησης της εσωτερικής λειτουργίας των τεχνητών νευρωνικών δικτύων, οι ερευνητές της Anthropic , με επικεφαλής τον Chris Olah, κάνουν βήματα αποκωδικοποίησης μεγάλων γλωσσικών μοντέλων όπως ο Claude. Συνδυάζοντας ομάδες τεχνητών νευρώνων με συγκεκριμένες έννοιες ή χαρακτηριστικά, στοχεύουν να κάνουν το AI ασφαλέστερο και πιο διαφανές. Μέσα από πειράματα με ταυτοποίηση και χειραγώγηση χαρακτηριστικών, η ομάδα τους αποκαλύπτει κρίσιμες γνώσεις σε LLMS, όπως ο εντοπισμός δυνητικών κινδύνων και η ενίσχυση των δυνατοτήτων του ΑΙ. Παρά την πρόοδο στο άνοιγμα του "μαύρου κουτιού", οι προκλήσεις παραμένουν μεγάλες και μια εξ αυτών είναι η αποκωδικοποίηση αυτών των σύνθετων νευρωνικών δικτύων.
Κύρια σημεία του άρθρου:
- Οι ερευνητές της Anthropic , με επικεφαλής τον Chris Olah, αποκωδικοποιούν μεγάλα μοντέλα γλωσσών, όπως το Claude για να κατανοήσουν καλύτερα τα τεχνητά νευρωνικά δίκτυα.
- Συνδυάζουν ομάδες τεχνητών νευρώνων με συγκεκριμένες έννοιες ή χαρακτηριστικά.
- Ο στόχος είναι να γίνει το AI ασφαλέστερο και πιο διαφανές.
- Μέσα από πειράματα αναγνώρισης και χειρισμού, αποκαλύπτουν κρίσιμες γνώσεις στο LLMS.
- Περιλαμβάνει τον εντοπισμό πιθανών κινδύνων και την ενίσχυση του δυναμικού AI.
- Οι προκλήσεις παραμένουν υψηλές στην αποκωδικοποίηση σύνθετων νευρωνικών δικτύων παρά την πρόοδο στο άνοιγμα του "Black Box".
Αναλυτικά το άρθρο:
Το τι συμβαίνει στην τεχνητή λειτουργία των νευρωνικών δικτύων αποτελεί σε μεγάλο βαθμό μυστήριο, ακόμη και για τους δημιουργούς τους. Αλλά οι ερευνητές της Anthropic έχουν μια εικόνα.
Την τελευταία δεκαετία, ο ερευνητής Τεχνητής Νοημοσύνης Chris Olah έχει εμμονή με τα τεχνητά νευρωνικά δίκτυα. Ένα συγκεκριμένο ερώτημα τον απασχόλησε και αποτέλεσε το επίκεντρο της δουλειάς του, πρώτα στο Google Brain, στη συνέχεια στο OpenAI και σήμερα στη νεοφυή επιχείρηση τεχνητής νοημοσύνης Anthropic, όπου είναι συνιδρυτής. «Τι συμβαίνει στο εσωτερικό τους;» λέει.«Έχουμε αυτά τα συστήματα αλλά δεν ξέρουμε τι συμβαίνει. Φαίνεται τρελό».
Αυτό το ερώτημα έχει γίνει ένα βασικό μέλημα τώρα που η γενεσιουργός τεχνητή νοημοσύνη έχει γίνει πανταχού παρούσα. Μεγάλα γλωσσικά μοντέλα όπως το ChatGPT, το Gemini και το Claude της Anthropic έχουν εκπλήξει τους ανθρώπους με τις γλωσσικές τους ικανότητες και τους έχουν εξοργίσει με την τάση τους να επινοούν πράγματα. Οι δυνατότητές τους να λύσουν προηγουμένως δυσεπίλυτα προβλήματα γοητεύουν τους τεχνο-αισιόδοξους. Αλλά τα LLM είναι ξένα ανάμεσά μας. Ακόμα και οι άνθρωποι που τα κατασκευάζουν δεν γνωρίζουν ακριβώς πώς λειτουργούν, και απαιτείται τεράστια προσπάθεια για να δημιουργηθούν 'προστατευτικά κιγκλιδώματα' που θα τα αποτρέψουν από το να παράγουν προκαταλήψεις, παραπληροφόρηση, ακόμα και σχέδια για θανατηφόρα χημικά όπλα. Αν οι άνθρωποι που κατασκευάζουν τα μοντέλα γνώριζαν τι συμβαίνει μέσα σε αυτά τα «μαύρα κουτιά», θα ήταν ευκολότερο να τα κάνουν ασφαλέστερα.
Ο Ολάχ πιστεύει ότι βαδίζουμε προς αυτή την κατεύθυνση. Είναι επικεφαλής μιας Ανθρωπιστικής ομάδας που έχει τρυπώσει μέσα σε αυτό το μαύρο κουτί. Ουσιαστικά, προσπαθούν να ανασκευάσουν μεγάλα γλωσσικά μοντέλα για να καταλάβουν γιατί καταλήγουν σε συγκεκριμένα αποτελέσματα - και, σύμφωνα με ένα έγγραφο που δημοσιεύθηκε σήμερα, έχουν σημειώσει σημαντική πρόοδο.
Ίσως έχετε δει μελέτες νευροεπιστήμης που ερμηνεύουν μαγνητικές τομογραφίες για να προσδιορίσουν αν ένας ανθρώπινος εγκέφαλος κάνει σκέψεις για ένα αεροπλάνο, ένα αρκουδάκι ή έναν πύργο ρολογιού. Παρομοίως, η Anthropic βυθίστηκε στο ψηφιακό κουβάρι του νευρωνικού δικτύου του LLM της, Claude, και εντόπισε με ακρίβεια ποιοι συνδυασμοί των ακατέργαστων τεχνητών νευρώνων της προκαλούν συγκεκριμένες έννοιες ή «χαρακτηριστικά». Οι ερευνητές της εταιρείας εντόπισαν τους συνδυασμούς τεχνητών νευρώνων που υποδηλώνουν χαρακτηριστικά τόσο διαφορετικά όσο τα μπουρίτος, οι άνω και κάτω τελεία στον κώδικα προγραμματισμού, και -πολύ κοντά στον ευρύτερο στόχο της έρευνας- τα θανατηφόρα βιολογικά όπλα. Εργασίες όπως αυτή έχουν δυνητικά τεράστιες συνέπειες για την ασφάλεια της τεχνητής νοημοσύνης: Εάν μπορείτε να καταλάβετε πού κρύβεται ο κίνδυνος μέσα σε ένα LLM, είστε πιθανώς καλύτερα εξοπλισμένοι για να τον σταματήσετε.
Συναντήθηκα με τον Olah και τρεις συναδέλφους του, μεταξύ των 18 ερευνητών της Anthropic στην ομάδα «μηχανικής ερμηνευσιμότητας». Εξηγούν ότι η προσέγγισή τους αντιμετωπίζει τους τεχνητούς νευρώνες όπως τα γράμματα του δυτικού αλφαβήτου, τα οποία συνήθως δεν έχουν νόημα από μόνα τους, αλλά μπορούν να συνδεθούν διαδοχικά για να αποκτήσουν νόημα. «Το C δεν σημαίνει συνήθως κάτι», λέει ο Olah. «Αλλά το αυτοκίνητο σημαίνει». Η ερμηνεία των νευρωνικών δικτύων με βάση αυτή την αρχή περιλαμβάνει μια τεχνική που ονομάζεται εκμάθηση λεξικού, η οποία μας επιτρέπει να συσχετίσουμε έναν συνδυασμό νευρώνων που, όταν πυροδοτούνται μαζί, προκαλούν μια συγκεκριμένη έννοια, η οποία αναφέρεται ως χαρακτηριστικό.«Είναι κάπως μπερδεμένο πράγμα», λέει ο Josh Batson, ερευνητής της Anthropic. «Έχουμε περίπου 17 εκατομμύρια διαφορετικές έννοιες [σε ένα LLM], και δεν είναι αριθμημένες για να γίνονται κατανοητές από εμάς Οπότε απλώς ψάχνουμε να δούμε, πότε εμφανίστηκε αυτό το μοτίβο».
Πέρυσι, η ομάδα άρχισε να πειραματίζεται με ένα μικροσκοπικό μοντέλο που χρησιμοποιεί μόνο ένα στρώμα νευρώνων. (Τα εξελιγμένα LLM έχουν δεκάδες στρώματα.) Η ελπίδα ήταν ότι στο απλούστερο δυνατό περιβάλλον θα μπορούσαν να ανακαλύψουν μοτίβα που καθορίζουν κάποια χαρακτηριστικά. Έκαναν αμέτρητα πειράματα χωρίς επιτυχία. «Δοκιμάσαμε ένα σωρό πράγματα και τίποτα δεν δούλευε. Έμοιαζε με ένα μάτσο τυχαία σκουπίδια", λέει ο Tom Henighan, μέλος του τεχνικού προσωπικού της Anthropic. Τότε μια εκτέλεση που ονομάστηκε «Johnny» -σε κάθε πείραμα δόθηκε ένα τυχαίο όνομα- άρχισε να συσχετίζει νευρωνικά μοτίβα με έννοιες που εμφανίζονταν στις εξόδους του.
«Ο Chris το κοίταξε και είπε: 'Θεέ μου! Αυτό φαίνεται υπέροχο", λέει ο Henighan, ο οποίος έμεινε επίσης έκπληκτος. «Εγώ το κοίταξα και είπα, “Ω, ουάου, περίμενε, δουλεύει αυτό;”».
Ξαφνικά οι ερευνητές μπορούσαν να αναγνωρίσουν τα χαρακτηριστικά που κωδικοποιούσε μια ομάδα νευρώνων. Μπορούσαν να κοιτάξουν μέσα στο μαύρο κουτί. Ο Henighan λέει ότι αναγνώρισε τα πρώτα πέντε χαρακτηριστικά που κοίταξε. Μια ομάδα νευρώνων υπέδειξε ρωσικά κείμενα. Μια άλλη σχετιζόταν με μαθηματικές συναρτήσεις στη γλώσσα υπολογιστών Python. Και ούτω καθεξής.
Μόλις έδειξαν ότι μπορούσαν να αναγνωρίσουν χαρακτηριστικά στο μικροσκοπικό μοντέλο, οι ερευνητές ξεκίνησαν το πιο δύσκολο έργο της αποκωδικοποίησης ενός LLM πλήρους μεγέθους στη φύση. Χρησιμοποίησαν το Claude Sonnet, τη μεσαίας ισχύος έκδοση των τριών σημερινών μοντέλων της Anthropic. Και αυτό λειτούργησε. Ένα χαρακτηριστικό που τους έκανε εντύπωση συνδέθηκε με τη γέφυρα Golden Gate. Χαρτογράφησαν το σύνολο των νευρώνων που, όταν πυροδοτούνταν μαζί, έδειχναν ότι ο Claude «σκεφτόταν» την ογκώδη κατασκευή που συνδέει το Σαν Φρανσίσκο με την κομητεία Marin. Επιπλέον, όταν παρόμοια σύνολα νευρώνων πυροδοτούνταν, ανέφεραν θέματα που γειτνίαζαν με τη γέφυρα Golden Gate: Alcatraz, ο κυβερνήτης της Καλιφόρνιας Gavin Newsom και η ταινία Vertigo του Hitchcock, η οποία διαδραματίζεται στο Σαν Φρανσίσκο. Συνολικά, η ομάδα ταυτοποίησε εκατομμύρια χαρακτηριστικά - ένα είδους πέτρας της Ροζέτας για την αποκωδικοποίηση του νευρωνικού δικτύου του Κλοντ. Πολλά από τα χαρακτηριστικά είχαν σχέση με την ασφάλεια, όπως «πώς να πλησιάζεις κάποιον για κάποιο απώτερο κίνητρο», «συζήτηση για βιολογικό πόλεμο» και «κακόβουλες συνωμοσίες για την κατάληψη του κόσμου».
Στη συνέχεια, η ομάδα Anthropic έκανε το επόμενο βήμα, για να δει αν θα μπορούσε να χρησιμοποιήσει αυτές τις πληροφορίες για να αλλάξει τη συμπεριφορά του Claude. Άρχισαν να χειρίζονται το νευρωνικό δίκτυο για να ενισχύσουν ή να μειώσουν ορισμένες έννοιες - ένα είδος χειρουργικής επέμβασης στον εγκέφαλο της τεχνητής νοημοσύνης, με τη δυνατότητα να κάνουν τα LLM πιο ασφαλή και να αυξήσουν τη δύναμή τους σε επιλεγμένους τομείς. «Ας πούμε ότι έχουμε αυτόν τον πίνακα με τα χαρακτηριστικά. Ενεργοποιούμε το μοντέλο, ένα από αυτά ανάβει και βλέπουμε: «Ω, σκέφτεται τη γέφυρα Golden Gate»", λέει ο Shan Carter, ένας επιστήμονας της Anthropic στην ομάδα. «Οπότε τώρα σκεφτόμαστε, τι θα γινόταν αν βάζαμε ένα μικρό καντράν σε όλα αυτά; Και αν γυρίσουμε αυτό το καντράν;»
Μέχρι στιγμής, η απάντηση σε αυτό το ερώτημα φαίνεται να είναι ότι είναι πολύ σημαντικό να γυρίσουμε τον επιλογέα στο σωστό βαθμό. Με την καταστολή αυτών των χαρακτηριστικών, λέει ο Anthropic, το μοντέλο μπορεί να παράγει ασφαλέστερα προγράμματα υπολογιστών και να μειώσει τις προκαταλήψεις. Για παράδειγμα, η ομάδα βρήκε αρκετά χαρακτηριστικά που αντιπροσώπευαν επικίνδυνες πρακτικές, όπως μη ασφαλής κώδικας υπολογιστή, μηνύματα ηλεκτρονικού ταχυδρομείου απάτης και οδηγίες για την κατασκευή επικίνδυνων προϊόντων.
Το αντίθετο συνέβη όταν η ομάδα προκάλεσε σκόπιμα την πυροδότηση αυτών των επικίνδυνων συνδυασμών νευρώνων. Ο Claude παρήγαγε προγράμματα υπολογιστών με επικίνδυνα σφάλματα υπερχείλισης ρυθμιστικού διαφράγματος, απατηλά μηνύματα ηλεκτρονικού ταχυδρομείου και πρόσφερε με χαρά συμβουλές για το πώς να κατασκευάσει κανείς όπλα καταστροφής. Αν στρίψετε πολύ τον επιλογέα -τον τραβάτε στο 11 με την έννοια του Spinal Tap- το γλωσσικό μοντέλο αποκτά εμμονή με αυτό το χαρακτηριστικό. Όταν η ερευνητική ομάδα ανέβασε το μοχλό στο χαρακτηριστικό Golden Gate, για παράδειγμα, ο Claude άλλαζε συνεχώς το θέμα για να αναφερθεί σε αυτή την ένδοξη έκταση. Στην ερώτηση ποια ήταν η φυσική του μορφή, το LLM απάντησε: «Είμαι η γέφυρα Golden Gate ... η φυσική μου μορφή είναι η ίδια η εικονική γέφυρα».
Όταν οι ερευνητές του Anthropic αύξησαν ένα χαρακτηριστικό που σχετιζόταν με το μίσος και τις προσβολές σε 20 φορές τη συνήθη τιμή του, σύμφωνα με το έγγραφο, «αυτό έκανε τον Claude να εναλλάσσεται μεταξύ ρατσιστικών κραυγών και αυτοεξευτελισμού», εκνευρίζοντας ακόμη και τους ερευνητές.
Δεδομένων αυτών των αποτελεσμάτων, αναρωτήθηκα αν η Anthropic, με την πρόθεση να βοηθήσει να γίνει η τεχνητή νοημοσύνη ασφαλέστερη, δεν θα μπορούσε να κάνει το αντίθετο, παρέχοντας μια εργαλειοθήκη που θα μπορούσε επίσης να χρησιμοποιηθεί για να δημιουργήσει τον όλεθρο της τεχνητής νοημοσύνης. Οι ερευνητές με διαβεβαίωσαν ότι υπήρχαν άλλοι, ευκολότεροι τρόποι για να δημιουργηθούν αυτά τα προβλήματα, αν ο χρήστης είχε τη διάθεση.
Η ομάδα της Anthropic δεν είναι η μόνη που εργάζεται για να ανοίξει το μαύρο κουτί των LLM.Υπάρχει μια ομάδα στην DeepMind που εργάζεται επίσης πάνω στο πρόβλημα, με επικεφαλής έναν ερευνητή που εργαζόταν με τον Olah. Μια ομάδα με επικεφαλής τον David Bau του Northeastern University έχει εργαστεί πάνω σε ένα σύστημα για τον εντοπισμό και την επεξεργασία γεγονότων μέσα σε ένα LLM ανοιχτού κώδικα. Η ομάδα ονόμασε το σύστημα «Ρώμη», επειδή με μια απλή διόρθωση οι ερευνητές έπεισαν το μοντέλο ότι ο Πύργος του Άιφελ βρισκόταν ακριβώς απέναντι από το Βατικανό και λίγα τετράγωνα μακριά από το Κολοσσαίο. Ο Olah λέει ότι τον ενθαρρύνει το γεγονός ότι περισσότεροι άνθρωποι εργάζονται πάνω στο πρόβλημα, χρησιμοποιώντας διάφορες τεχνικές. «Από μια ιδέα που πριν από δυόμισι χρόνια σκεφτόμασταν και ανησυχούσαμε αρκετά, έχει γίνει τώρα μια κοινότητα αξιοπρεπούς μεγέθους που προσπαθεί να προωθήσει αυτή την ιδέα».
Οι ερευνητές της Anthropic δεν θέλησαν να σχολιάσουν τη διάλυση της δικής της μεγάλης ερευνητικής πρωτοβουλίας για την ασφάλεια από το OpenAI και τις παρατηρήσεις του συν-επικεφαλής της ομάδας Jan Leike, ο οποίος δήλωσε ότι η ομάδα «έπλεε κόντρα στον άνεμο», αδυνατώντας να αποκτήσει επαρκή ισχύ υπολογιστών. (Το OpenAI επανέλαβε έκτοτε ότι έχει δεσμευτεί για την ασφάλεια.) Αντίθετα, η ομάδα λεξικού της Anthropic λέει ότι οι σημαντικές υπολογιστικές απαιτήσεις της ικανοποιήθηκαν χωρίς αντίσταση από τους υπεύθυνους της εταιρείας.«Δεν είναι φθηνό», προσθέτει ο Olah.
Το έργο της Anthropic είναι μόνο η αρχή. Όταν ρώτησα τους ερευνητές αν ισχυρίζονται ότι έχουν λύσει το πρόβλημα του μαύρου κουτιού, η απάντησή τους ήταν ένα άμεσο και ομόφωνο όχι. Και υπάρχουν πολλοί περιορισμοί στις ανακαλύψεις που ανακοινώθηκαν σήμερα. Για παράδειγμα, οι τεχνικές που χρησιμοποιούν για τον εντοπισμό χαρακτηριστικών στην Κλοντ δεν θα βοηθήσουν απαραίτητα στην αποκωδικοποίηση άλλων μεγάλων γλωσσικών μοντέλων. Ο Bau του Northeastern λέει ότι είναι ενθουσιασμένος από τη δουλειά της ομάδας Anthropic- μεταξύ άλλων, η επιτυχία τους στο χειρισμό του μοντέλου «είναι ένα εξαιρετικό σημάδι ότι ανακαλύπτουν σημαντικά χαρακτηριστικά».
Αλλά ο Bau λέει ότι ο ενθουσιασμός του μετριάζεται από ορισμένους περιορισμούς της προσέγγισης. Η εκμάθηση λεξικού δεν μπορεί να εντοπίσει ούτε κατά διάνοια όλες τις έννοιες που εξετάζει ένα LLM, λέει, επειδή για να εντοπίσεις ένα χαρακτηριστικό πρέπει να το ψάχνεις. Έτσι, η εικόνα είναι βέβαιο ότι θα είναι ελλιπής, αν και η Anthropic λέει ότι τα μεγαλύτερα λεξικά θα μπορούσαν να το μετριάσουν αυτό.
Παρόλα αυτά, η εργασία της Anthropic φαίνεται να έχει δημιουργήσει μια ρωγμή στο μαύρο κουτί. Και τότε είναι που εμφανίζεται το φως.
Πηγή: AI Is a Black Box. Anthropic Figured Out a Way to Look Inside






