Οι ερευνητές λένε ότι το Deepfake Biden Robocall πιθανότατα έγινε με εργαλεία από το AI Startup ElevenLabs

29/01/2024 | |

Περίληψη άρθρου:

Την περασμένη εβδομάδα, οι ψηφοφόροι στο Νιου Χάμσαϊρ έλαβαν ένα ψεύτικο ρομποτικό τηλεφώνημα που μιμούνταν τον πρόεδρο Τζο Μπάιντεν, προτρέποντάς τους να μην ψηφίσουν στις προκριματικές εκλογές της πολιτείας. Δύο ξεχωριστές ομάδες εμπειρογνωμόνων ήχου υποδεικνύουν ότι η κλήση δημιουργήθηκε πιθανότατα με τη χρήση τεχνολογίας από τη νεοσύστατη εταιρεία κλωνοποίησης φωνής ElevenLabs. Η εταιρεία, η οποία συγκέντρωσε πρόσφατα 80 εκατομμύρια δολάρια σε αποτίμηση 1,1 δισεκατομμυρίου δολαρίων, προσφέρει τα εργαλεία τεχνητής νοημοσύνης της για χρήσεις όπως τα ηχητικά βιβλία και τα βιντεοπαιχνίδια. Αν και η ElevenLabs έχει μια πολιτική σύμφωνα με την οποία είναι καλύτερο να λαμβάνεται άδεια πριν από την κλωνοποίηση της φωνής κάποιου, επιτρέπει την κλωνοποίηση χωρίς άδεια για μη εμπορικούς σκοπούς, όπως ο πολιτικός λόγος που συμβάλλει σε δημόσιες συζητήσεις. Η εταιρεία ασφαλείας Pindrop πραγματοποίησε ανάλυση του ηχητικού κλιπ και το αναγνώρισε ως 99% πιθανό να έχει δημιουργηθεί με την τεχνολογία της ElevenLabs. Στο ίδιο συμπέρασμα κατέληξαν και οι ειδικοί της ψηφιακής εγκληματολογίας στο UC Berkeley. Το περιστατικό αυτό αναδεικνύει την πιθανή κατάχρηση του ήχου που δημιουργείται από τεχνητή νοημοσύνη στην πολιτική προπαγάνδα καθώς πλησιάζουν οι εκλογές του 2024. Η διαθεσιμότητα εργαλείων κλωνοποίησης φωνής εγείρει ανησυχίες σχετικά με την αστυνόμευση και την επαλήθευση της αυθεντικότητας των ηχητικών αποσπασμάτων. Οι δημοσιογράφοι και οι αξιωματούχοι εκλογών δεν διαθέτουν αξιόπιστα εργαλεία για γρήγορη επαλήθευση, γεγονός που θέτει προκλήσεις για την αποτελεσματική αντιμετώπιση της προπαγάνδας που παράγεται από τεχνητή νοημοσύνη.

Κύρια σημεία του άρθρου:

Δύο ειδικοί σε θέματα ψεύτικου ήχου πιστεύουν ότι το ψεύτικο ρομποτικό τηλεφώνημα που μιμείται τον πρόεδρο Μπάιντεν δημιουργήθηκε πιθανότατα με τη χρήση τεχνολογίας από την ElevenLabs.
Η ElevenLabs απέκτησε πρόσφατα την ιδιότητα του "μονόκερου" συγκεντρώνοντας 80 εκατομμύρια δολάρια σε χρηματοδότηση.
Τα εργαλεία τεχνητής νοημοσύνης της εταιρείας μπορούν να κλωνοποιήσουν φωνές από δείγματα ήχου και η πολιτική ασφαλείας της επιτρέπει την κλωνοποίηση χωρίς άδεια για μη εμπορικούς σκοπούς.
Η Pindrop, μια εταιρεία ασφαλείας, ισχυρίζεται ότι η ανάλυσή της στον ήχο των ρομποτικών κλήσεων παραπέμπει στην τεχνολογία της ElevenLabs.
Ο Hany Farid, ειδικός στην ψηφιακή εγκληματολογία στο UC Berkeley, αρχικά αμφισβήτησε την εμπλοκή της ElevenLabs, αλλά αργότερα κατέληξε στο ίδιο συμπέρασμα μετά τη διεξαγωγή ανεξάρτητης ανάλυσης.
Δεν είναι η πρώτη φορά που ερευνητές υποψιάζονται ότι τα εργαλεία της ElevenLabs χρησιμοποιήθηκαν για πολιτική προπαγάνδα.

Αναλυτικά το άρθρο:

Δύο ειδικοί σε θέματα ψεύτικου ήχου λένε ότι το ψεύτικο ρομποτικό τηλεφώνημα του προέδρου Μπάιντεν που έλαβαν ορισμένοι ψηφοφόροι την περασμένη εβδομάδα πιθανότατα δημιουργήθηκε με τεχνολογία από την αγαπημένη startup κλωνοποίησης φωνής της Σίλικον Βάλεϊ.

Την περασμένη εβδομάδα, ορισμένοι ψηφοφόροι στο Νιου Χάμσαϊρ έλαβαν ένα ρομποτικό τηλεφώνημα που παρίστανε τον πρόεδρο Τζο Μπάιντεν και τους έλεγε να μην ψηφίσουν στις προκριματικές εκλογές της πολιτείας. Δεν είναι σαφές ποιος ήταν υπεύθυνος για το τηλεφώνημα, αλλά δύο διαφορετικές ομάδες εμπειρογνωμόνων ήχου λένε στο WIRED ότι πιθανότατα δημιουργήθηκε με τη χρήση τεχνολογίας από τη νεοσύστατη εταιρεία κλωνοποίησης φωνής ElevenLabs.

Η ElevenLabs εμπορεύεται τα εργαλεία τεχνητής νοημοσύνης της για χρήσεις όπως τα ηχητικά βιβλία και τα βιντεοπαιχνίδια- πρόσφατα απέκτησε την ιδιότητα του "μονόκερου", συγκεντρώνοντας 80 εκατομμύρια δολάρια σε αποτίμηση 1,1 δισεκατομμυρίου δολαρίων σε νέο γύρο χρηματοδότησης με επικεφαλής την εταιρεία επιχειρηματικών συμμετοχών Andreessen Horowitz. Οποιοσδήποτε μπορεί να εγγραφεί στην επί πληρωμή υπηρεσία της εταιρείας και να κλωνοποιήσει μια φωνή από ένα δείγμα ήχου. Η πολιτική ασφαλείας της εταιρείας αναφέρει ότι είναι καλύτερο να λαμβάνετε την άδεια κάποιου πριν κλωνοποιήσετε τη φωνή του, αλλά ότι η κλωνοποίηση χωρίς άδεια μπορεί να είναι εντάξει για διάφορους μη εμπορικούς σκοπούς, συμπεριλαμβανομένης της "πολιτικής ομιλίας που συμβάλλει στις δημόσιες συζητήσεις".

Μια δήλωση που δόθηκε αργά την Παρασκευή από τον διευθύνοντα σύμβουλο της ElevenLabs, Mati Staniszewski, ανέφερε ότι η εταιρεία είναι "αφοσιωμένη στην πρόληψη της κατάχρησης των εργαλείων τεχνητής νοημοσύνης ήχου", αλλά ότι δεν μπορεί να σχολιάσει συγκεκριμένα περιστατικά. Η ElevenLabs αναλαμβάνει δράση σε περιπτώσεις κακής χρήσης, μεταξύ άλλων βοηθώντας τις αρχές, ανέφερε η δήλωση.

Η Pindrop, μια εταιρεία ασφάλειας που αναπτύσσει εργαλεία για τον εντοπισμό συνθετικού ήχου, ισχυρίστηκε σε ανάρτηση στο ιστολόγιο της την Πέμπτη ότι η ανάλυσή της στον ήχο της κλήσης υποδείκνυε την τεχνολογία της ElevenLabs ή ένα "σύστημα που χρησιμοποιεί παρόμοια στοιχεία". Η ερευνητική ομάδα της Pindrop έλεγξε τα μοτίβα στο ηχητικό κλιπ με περισσότερες από 120 διαφορετικές μηχανές σύνθεσης φωνής αναζητώντας μια αντιστοιχία, αλλά δεν περίμενε να βρει κάτι τέτοιο, επειδή ο εντοπισμός της προέλευσης του ήχου που παράγεται από τεχνητή νοημοσύνη μπορεί να είναι δύσκολος. Τα αποτελέσματα ήταν εκπληκτικά ξεκάθαρα, λέει ο διευθύνων σύμβουλος της Pindrop Vijay Balasubramaniyan. "Η απάντηση ήταν πολύ πάνω από 99 τοις εκατό ότι ήταν η ElevenLabs", λέει.

Η ομάδα της Pindrop εργάστηκε πάνω σε ένα απόσπασμα 39 δευτερολέπτων από ένα από τα ρομποτικά τηλεφωνήματα που δημιούργησε η τεχνητή νοημοσύνη.

Επιδίωξε να επαληθεύσει τα αποτελέσματά της αναλύοντας επίσης δείγματα ήχου που είναι γνωστό ότι έχουν δημιουργηθεί με την τεχνολογία της ElevenLabs, καθώς και με ένα άλλο εργαλείο σύνθεσης φωνής για να ελέγξει τη μεθοδολογία.

Η ElevenLabs προσφέρει τον δικό της ανιχνευτή ομιλίας τεχνητής νοημοσύνης στον ιστότοπό της, ο οποίος, όπως λέει, μπορεί να καταλάβει αν ένα ηχητικό κλιπ δημιουργήθηκε με την τεχνολογία της εταιρείας. Όταν η Pindrop έτρεξε το δείγμα του ύποπτου ρομποτικού τηλεφωνήματος μέσω αυτού του συστήματος, επέστρεψε ως 84% πιθανό να έχει δημιουργηθεί με τη χρήση εργαλείων της ElevenLabs. Το WIRED έλαβε ανεξάρτητα το ίδιο αποτέλεσμα όταν έλεγξε το δείγμα ήχου της Pindrop με τον ανιχνευτή της ElevenLabs.

Ο Hany Farid, ειδικός στην ψηφιακή εγκληματολογία στη Σχολή Πληροφορικής του UC Berkeley, ήταν αρχικά επιφυλακτικός απέναντι στους ισχυρισμούς ότι το ρομποτικό τηλεφώνημα του Biden προερχόταν από την ElevenLabs. "Όταν ακούς τον ήχο από μια κλωνοποιημένη φωνή από την ElevenLabs, είναι πραγματικά καλός", λέει. "Η εκδοχή του τηλεφωνήματος του Μπάιντεν που άκουσα δεν ήταν ιδιαίτερα καλή, αλλά ο ρυθμός ήταν πραγματικά funky. Απλώς δεν ακουγόταν της ποιότητας που θα περίμενα από την ElevenLabs".

Αλλά όταν ο Farid έβαλε την ομάδα του στο Μπέρκλεϊ να πραγματοποιήσει τη δική της ανεξάρτητη ανάλυση του δείγματος ήχου που έλαβε η Pindrop, κατέληξε και αυτή στο ίδιο συμπέρασμα. "Το μοντέλο μας λέει με μεγάλη σιγουριά ότι πρόκειται για τεχνητή νοημοσύνη και πιθανότατα για ElevenLabs", υποστηρίζει.

Δεν είναι η πρώτη φορά που οι ερευνητές υποψιάζονται ότι τα εργαλεία της ElevenLabs χρησιμοποιήθηκαν για πολιτική προπαγάνδα. Τον περασμένο Σεπτέμβριο, η NewsGuard, μια εταιρεία που παρακολουθεί την παραπληροφόρηση στο διαδίκτυο, ισχυρίστηκε ότι οι λογαριασμοί TikTok που μοιράζονταν θεωρίες συνωμοσίας χρησιμοποιώντας φωνές που δημιουργούνταν από τεχνητή νοημοσύνη, συμπεριλαμβανομένου ενός κλώνου της φωνής του Μπαράκ Ομπάμα, χρησιμοποιούσαν την τεχνολογία της ElevenLabs. "Πάνω από το 99% των χρηστών της πλατφόρμας μας δημιουργούν ενδιαφέρον, καινοτόμο και χρήσιμο περιεχόμενο", ανέφερε τότε η ElevenLabs σε δήλωση που έστειλε μέσω ηλεκτρονικού ταχυδρομείου στους New York Times, "αλλά αναγνωρίζουμε ότι υπάρχουν περιπτώσεις κακής χρήσης και αναπτύσσουμε και δημοσιεύουμε συνεχώς μέτρα προστασίας για τον περιορισμό τους".

Αν οι αναλύσεις της Pindrop και του Berkeley είναι σωστές, το ρομποτικό τηλεφώνημα του Μπάιντεν έγινε με τεχνολογία από μία από τις πιο γνωστές και καλά χρηματοδοτημένες νεοφυείς εταιρείες φωνητικής τεχνητής νοημοσύνης της τεχνολογικής βιομηχανίας. Όπως σημειώνει ο Farid, η ElevenLabs θεωρείται ήδη ότι παρέχει μερικές από τις υψηλότερης ποιότητας προσφορές συνθετικής φωνής στην αγορά.

Σύμφωνα με τον διευθύνοντα σύμβουλο της εταιρείας σε πρόσφατο άρθρο του Bloomberg, η ElevenLabs αποτιμάται από τους επενδυτές σε περισσότερα από 1,1 δισ. δολάρια. Εκτός από την Andreessen Horowitz, στους επενδυτές της περιλαμβάνονται εξέχοντα άτομα όπως ο Nat Friedman, πρώην διευθύνων σύμβουλος της GitHub, και ο Mustafa Suleyman, συνιδρυτής του εργαστηρίου τεχνητής νοημοσύνης DeepMind, που σήμερα ανήκει στην Alphabet. Στους επενδυτές περιλαμβάνονται επίσης εταιρείες όπως η Sequoia Capital και η SV Angel.

Με την πλούσια χρηματοδότησή της, η ElevenLabs είναι αναμφισβήτητα σε καλύτερη θέση από άλλες νεοσύστατες επιχειρήσεις τεχνητής νοημοσύνης για να διοχετεύσει πόρους στη δημιουργία αποτελεσματικών δικλείδων ασφαλείας κατά των κακοποιών - ένα έργο που γίνεται ακόμη πιο επείγον λόγω των επερχόμενων προεδρικών εκλογών στις Ηνωμένες Πολιτείες. "Η ύπαρξη των σωστών διασφαλίσεων είναι σημαντική, διότι διαφορετικά ο καθένας μπορεί να δημιουργήσει οποιοδήποτε ομοίωμα οποιουδήποτε προσώπου", λέει ο Balasubramaniyan. "Καθώς πλησιάζουμε σε έναν εκλογικό κύκλο, το πράγμα θα τρελαθεί".

Σε έναν διακομιστή Discord για τους λάτρεις της ElevenLabs υπάρχουν άνθρωποι που συζητούν για το πώς σκοπεύουν να κλωνοποιήσουν τη φωνή του Μπάιντεν και μοιράζονται συνδέσμους σε βίντεο και αναρτήσεις στα μέσα κοινωνικής δικτύωσης που αναδεικνύουν περιεχόμενο με deepfaked περιεχόμενο με τον Μπάιντεν ή τεχνητά παραγόμενες απομιμήσεις των φωνών του Ντόναλντ Τραμπ και του Μπαράκ Ομπάμα.

Παρόλο που η ElevenLabs είναι ηγέτης στην αγορά στην κλωνοποίηση φωνής τεχνητής νοημοσύνης, μέσα σε λίγα μόλις χρόνια η τεχνολογία έχει γίνει ευρέως διαθέσιμη σε εταιρείες και ιδιώτες για να πειραματιστούν. Αυτό έχει δημιουργήσει νέες επιχειρηματικές ευκαιρίες, όπως η δημιουργία ηχητικών βιβλίων πιο φθηνά, αλλά αυξάνει επίσης τις δυνατότητες κακόβουλης χρήσης της τεχνολογίας. "Έχουμε ένα πραγματικό πρόβλημα", λέει ο Σαμ Γκρέγκορι, διευθυντής προγράμματος στη μη κερδοσκοπική οργάνωση Witness, η οποία βοηθά τους ανθρώπους να χρησιμοποιούν την τεχνολογία για την προώθηση των ανθρωπίνων δικαιωμάτων. "Όταν έχεις αυτά τα πολύ ευρέως διαθέσιμα εργαλεία, είναι αρκετά δύσκολο να αστυνομεύσεις".

Ενώ οι αναλύσεις της Pindrop και του Berkeley υποδηλώνουν ότι θα ήταν δυνατό να αποκαλυφθεί η πηγή των ρομποτικών κλήσεων που δημιουργούνται από τεχνητή νοημοσύνη, το περιστατικό υπογραμμίζει επίσης πόσο απροετοίμαστοι είναι οι αρχές, η βιομηχανία τεχνολογίας και το κοινό καθώς η προεκλογική περίοδος του 2024 κορυφώνεται. Είναι δύσκολο για τους ανθρώπους χωρίς εξειδικευμένη τεχνογνωσία να επιβεβαιώσουν την προέλευση των ηχητικών αποσπασμάτων ή να ελέγξουν αν αυτά παράγονται από τεχνητή νοημοσύνη. Και οι πιο εξελιγμένες αναλύσεις ενδέχεται να μην ολοκληρωθούν αρκετά γρήγορα για να αντισταθμίσουν τη ζημία που προκαλεί η προπαγάνδα που παράγεται από την ΤΝ.

"Οι δημοσιογράφοι, οι αξιωματούχοι των εκλογών και άλλοι δεν έχουν πρόσβαση σε αξιόπιστα εργαλεία για να το κάνουν αυτό γρήγορα και ταχέως, όταν διαρρέει ή μοιράζεται ήχος που μπορεί να επηρεάσει τις εκλογές", λέει ο Gregory. "Αν αυτό ήταν κάτι που ήταν σχετικό την ημέρα των εκλογών, θα ήταν πολύ αργά".

Πηγή: Researchers Say the Deepfake Biden Robocall Was Likely Made With Tools From AI Startup ElevenLabs