Η γεννήτρια ομιλίας τεχνητής νοημοσύνης «φτάνει το ανθρώπινο επίπεδο» - αλλά είναι πολύ επικίνδυνη για να κυκλοφορήσει στο κοινό, λένε οι επιστήμονες

18/07/2024 | |

Περίληψη Άρθρου:

Η Microsoft δημιούργησε μια προηγμένη γεννήτρια ομιλίας AI που ονομάζεται Vall-e 2, ικανή να αναπαράγει με ακρίβεια τις ανθρώπινες φωνές. Το AI χρησιμοποιεί καινοτόμα χαρακτηριστικά όπως η επανάληψη της δειγματοληψίας και της ομαδοποιημένης μοντελοποίησης κώδικα για την ενίσχυση της ποιότητας και της αποτελεσματικότητας του λόγου. Αν και εντυπωσιακό, η Microsoft δεν θα κυκλοφορήσει το Vall-e 2 για να αποτρέψει πιθανή κατάχρηση.

Κύρια σημεία του άρθρου:

Η Microsoft έχει αναπτύξει μια νέα γεννήτρια ομιλίας τεχνητής νοημοσύνης που ονομάζεται Vall-e 2 που μπορεί να αναπαράγει με ακρίβεια την ανθρώπινη φωνή.
Το Vall-E 2 έχει ξεπεράσει τα προηγούμενα συστήματα TTS όσον αφορά τη φυσικότητα και την ομοιότητα με τους ανθρώπινους ομιλητές με βάση πειράματα που διεξήχθησαν σε σύνολα δεδομένων Librispeech και VCTK.
Το Vall-e 2 θεωρείται αρκετά πειστικό με αποτέλεσμα εύκολα κάποιος να το μπερδέψει για ένα πραγματικό άτομο,λένε οι δημιουργοί του.
Οι ερευνητές περιγράφουν το Vall-e 2 ως ορόσημο σε μοντέλα κειμένου σε ομιλία (TTS), επιτυγχάνοντας για πρώτη φορά την ισοδυναμία με την ανθρώπινη απόδοση.
Η Microsoft δεν θα διαθέσει το Vall-e 2 στο κοινό λόγω ανησυχιών σχετικά με πιθανή κατάχρηση.
Οι ερευνητές προτείνουν πρακτικές εφαρμογές για τεχνολογία ομιλίας AI σε τομείς όπως η εκπαίδευση, η ψυχαγωγία, η δημοσιογραφία, η μετάφραση, τα chatbots κ.λπ.

Αναλυτικά το άρθρο:

Η Microsoft έχει αναπτύξει μια νέα γεννήτρια ομιλίας τεχνητής νοημοσύνης (AI), η οποία είναι προφανώς τόσο πειστική που δεν μπορεί να κυκλοφορήσει στο κοινό. Το VALL-E 2 είναι μια γεννήτρια μετατροπής κειμένου σε ομιλία (TTS) που μπορεί να αναπαράγει τη φωνή ενός ανθρώπινου ομιλητή χρησιμοποιώντας μόλις λίγα δευτερόλεπτα ήχου.

Οι ερευνητές της Microsoft δήλωσαν ότι το VALL-E 2 ήταν ικανό να παράγει «ακριβή, φυσική ομιλία με την ακριβή φωνή του αρχικού ομιλητή, ανάλογη με τις ανθρώπινες επιδόσεις», σε ένα έγγραφο που δημοσιεύθηκε στις 17 Ιουνίου στον προτυπωμένο διακομιστή arXiv. Με άλλα λόγια, η νέα γεννήτρια φωνής τεχνητής νοημοσύνης είναι αρκετά πειστική ώστε να μπορεί να θεωρηθεί λανθασμένα ως πραγματικό πρόσωπο - τουλάχιστον, σύμφωνα με τους δημιουργούς της.

«Το VALL-E 2 είναι η τελευταία εξέλιξη στα γλωσσικά μοντέλα νευρωνικών κωδικοποιητών που σηματοδοτεί ένα ορόσημο στη σύνθεση κειμένου σε ομιλία (TTS) με μηδενικό πλάνο, επιτυγχάνοντας για πρώτη φορά την ισοτιμία με τον άνθρωπο», γράφουν οι ερευνητές στο έγγραφο. «Επιπλέον, το VALL-E 2 συνθέτει σταθερά ομιλία υψηλής ποιότητας, ακόμη και για προτάσεις που παραδοσιακά αποτελούν πρόκληση λόγω της πολυπλοκότητάς τους ή των επαναλαμβανόμενων φράσεων».Ανθρώπινη ισοτιμία σε αυτό το πλαίσιο σημαίνει ότι η ομιλία που παράγεται από το VALL-E 2 έφτασε ή ξεπέρασε την ποιότητα της ανθρώπινης ομιλίας σε δείκτες αναφοράς που χρησιμοποιούνται από τη Microsoft.

Η μηχανή τεχνητής νοημοσύνης είναι ικανή για κάτι τέτοιο καθώς περιλαμβάνονται δύο βασικά χαρακτηριστικά: «Repetition Aware Sampling» και “Grouped Code Modeling”.
Το Repetition Aware Sampling βελτιώνει τον τρόπο με τον οποίο η τεχνητή νοημοσύνη μετατρέπει το κείμενο σε ομιλία, αντιμετωπίζοντας τις επαναλήψεις των «tokens» - μικρές μονάδες γλώσσας, όπως λέξεις ή μέρη λέξεων - αποτρέποντας άπειρους βρόχους ήχων ή φράσεων κατά τη διαδικασία αποκωδικοποίησης. Με άλλα λόγια, αυτό το χαρακτηριστικό βοηθάει να διαφοροποιείται το μοτίβο ομιλίας του VALL-E 2, κάνοντάς το να ακούγεται πιο ομαλό και φυσικό.

Εν τω μεταξύ, η Μοντελοποίηση ομαδοποιημένου κώδικα βελτιώνει την αποδοτικότητα μειώνοντας το μήκος της ακολουθίας - ή τον αριθμό των μεμονωμένων tokens που επεξεργάζεται το μοντέλο σε μια ενιαία ακολουθία εισόδου. Αυτό επιταχύνει το πόσο γρήγορα το VALL-E 2 παράγει ομιλία και βοηθά στη διαχείριση των δυσκολιών που προκύπτουν από την επεξεργασία μεγάλων σειρών ήχων.

Οι ερευνητές χρησιμοποίησαν δείγματα ήχου από τις βιβλιοθήκες ομιλίας LibriSpeech και VCTK για να αξιολογήσουν πόσο καλά το VALL-E 2 ταίριαζε με ηχογραφήσεις ανθρώπινων ομιλητών. Χρησιμοποίησαν επίσης το ELLA-V - ένα πλαίσιο αξιολόγησης που έχει σχεδιαστεί για τη μέτρηση της ακρίβειας και της ποιότητας της παραγόμενης ομιλίας - για να καθορίσουν πόσο αποτελεσματικά το VALL-E 2 χειρίστηκε πιο σύνθετες εργασίες παραγωγής ομιλίας.

«Τα πειράματά μας, τα οποία διεξήχθησαν στα σύνολα δεδομένων LibriSpeech και VCTK, έδειξαν ότι το VALL-E 2 ξεπερνά τα προηγούμενα συστήματα TTS με μηδενικό πλάνο στην ευρωστία της ομιλίας, τη φυσικότητα και την ομοιότητα των ομιλητών», έγραψαν οι ερευνητές. «Είναι το πρώτο του είδους του που φτάνει σε ανθρώπινο επίπεδο ισοτιμίας σε αυτά τα κριτήρια αναφοράς».

Οι ερευνητές επεσήμαναν στη δημοσίευση ότι η ποιότητα της απόδοσης του VALL-E 2 εξαρτάται από τη διάρκεια και την ποιότητα των προτροπών ομιλίας - καθώς και από περιβαλλοντικούς παράγοντες όπως ο θόρυβος του περιβάλλοντος.

«Καθαρά ερευνητικό έργο»

Παρά τις δυνατότητές του, η Microsoft δεν θα διαθέσει το VALL-E 2 στο κοινό λόγω πιθανών κινδύνων κατάχρησης. Αυτό συμπίπτει με τις αυξανόμενες ανησυχίες γύρω από την κλωνοποίηση φωνής και την τεχνολογία deepfake. Άλλες εταιρείες τεχνητής νοημοσύνης, όπως η OpenAI, έχουν θέσει παρόμοιους περιορισμούς στην τεχνολογία φωνής τους.

«Το VALL-E 2 είναι ένα καθαρά ερευνητικό έργο. Επί του παρόντος, δεν έχουμε σχέδια να ενσωματώσουμε το VALL-E 2 σε ένα προϊόν ή να το διαθέσουμε στο κοινό», έγραψαν οι ερευνητές σε μια ανάρτηση στο blog. «Μπορεί να ενέχει πιθανούς κινδύνους στην κακή χρήση του μοντέλου, όπως η παραποίηση της αναγνώρισης φωνής ή η πλαστοπροσωπία ενός συγκεκριμένου ομιλητή».

Τούτου λεχθέντος, πρότειναν ότι η τεχνολογία ομιλίας AI θα μπορούσε να δει πρακτικές εφαρμογές στο μέλλον. «Το VALL-E 2 θα μπορούσε να συνθέσει ομιλία που διατηρεί την ταυτότητα του ομιλητή και θα μπορούσε να χρησιμοποιηθεί για εκπαιδευτική μάθηση, ψυχαγωγία, δημοσιογραφικό, αυτοδημιούργητο περιεχόμενο, λειτουργίες προσβασιμότητας, συστήματα διαδραστικής φωνητικής απόκρισης, μετάφραση, chatbot κ.ο.κ.», πρόσθεσαν οι ερευνητές.

Συνέχισαν: «Εάν το μοντέλο γενικευτεί σε άγνωστους ομιλητές στον πραγματικό κόσμο, θα πρέπει να περιλαμβάνει ένα πρωτόκολλο που να διασφαλίζει ότι ο ομιλητής εγκρίνει τη χρήση της φωνής του και ένα μοντέλο ανίχνευσης συνθετικής ομιλίας».

Πηγή: AI speech generator 'reaches human parity' — but it's too dangerous to release, scientists say