Η Microsoft αποκαλύπτει το VALL-E, ένα γλωσσικό μοντέλο TTS που αλλάζει το παιχνίδι

30/01/2023 | |

Περίληψη Άρθρου:
Η Microsoft παρουσίασε πρόσφατα το VALL-E, μια νέα μέθοδο γλωσσικού μοντέλου για τη σύνθεση κειμένου σε ομιλία, η οποία χρησιμοποιεί κωδικούς κωδικοποίησης ήχου ως ενδιάμεσες αναπαραστάσεις και μπορεί να αναπαράγει τη φωνή οποιουδήποτε μετά από ακρόαση μόλις τριών δευτερολέπτων ηχογράφησης. Το VALL-E έχει αποδειχθεί ότι παράγει υψηλής ποιότητας εξατομικευμένη ομιλία με μια εγγεγραμμένη ηχογράφηση μόλις τριών δευτερολέπτων και ξεπερνά το πιο εξελιγμένο σύστημα TTS μηδενικής λήψης. Αυτή η τεχνολογία έχει τη δυνατότητα να φέρει επανάσταση στον τρόπο με τον οποίο αλληλεπιδρούμε με ψηφιακές συσκευές και υπηρεσίες.

Αναλυτικά το Άρθρο:
Η Microsoft παρουσίασε το VALL-E, μια νέα μέθοδο γλωσσικού μοντέλου για τη σύνθεση κειμένου σε ομιλία (TTS) που χρησιμοποιεί κωδικούς κωδικοποίησης ήχου ως ενδιάμεσες αναπαραστάσεις και μπορεί να αναπαράγει τη φωνή οποιουδήποτε μετά από ακρόαση μόλις τριών δευτερολέπτων ηχογράφησης.

Το VALL-E είναι ένα γλωσσικό μοντέλο με νευρωνικούς κωδικοποιητές, όπου η τεχνητή νοημοσύνη κωδικοποιεί την ομιλία και χρησιμοποιεί τους αλγορίθμους της για να χρησιμοποιήσει αυτά τα tokens για να δημιουργήσει κυματομορφές που ακούγονται όπως ο ομιλητής, συμπεριλαμβανομένης της διατήρησης του ηχοχρώματος και του συναισθηματικού τόνου του ομιλητή.

Σύμφωνα με το ερευνητικό έγγραφο, το VALL-E μπορεί να παράγει υψηλής ποιότητας εξατομικευμένη ομιλία με μόνο μια εγγεγραμμένη ηχογράφηση τριών δευτερολέπτων ενός πλάγιου ομιλητή που λειτουργεί ως ακουστικό ερέθισμα. Αυτό το κάνει χωρίς την ανάγκη πρόσθετης δομικής μηχανικής, προσχεδιασμένων ακουστικών χαρακτηριστικών ή λεπτομερούς ρύθμισης. Υποστηρίζει προσεγγίσεις TTS με βάση το πλαίσιο μάθησης και μηδενικής λήψης με βάση την προτροπή.

Ηχητικές επιδείξεις του μοντέλου ΤΝ σε δράση παρέχονται από το VALL-E. Το "Speaker Prompt", ένα από τα δείγματα, είναι ένα ακουστικό σύνθημα τριών δευτερολέπτων που πρέπει να αντιγράψει το VALL-E. Για συγκριτικούς σκοπούς, η "Βασική αλήθεια" είναι ένα προηγουμένως ηχογραφημένο απόσπασμα του ίδιου ομιλητή που χρησιμοποιεί μια συγκεκριμένη φράση (κάτι σαν τον "έλεγχο" στο πείραμα). Το δείγμα "Baseline" αντιπροσωπεύει ένα τυπικό παράδειγμα σύνθεσης κειμένου σε ομιλία και το δείγμα "VALL-E" αντιπροσωπεύει την έξοδο του μοντέλου VALL-E.

Σε σύγκριση με το πιο εξελιγμένο σύστημα TTS με μηδενικό πλάνο, το VALL-E έχει σημαντικά καλύτερες επιδόσεις στο LibriSpeech και το VCTK, σύμφωνα με τα δεδομένα αξιολόγησης. Στο LibriSpeech και το VCTK, το VALL-E παρήγαγε ακόμη και πρωτοποριακά αποτελέσματα zero-shot TTS.

Ο τομέας της σύνθεσης φωνής έχει προχωρήσει σημαντικά τα τελευταία χρόνια χάρη στην ανάπτυξη των νευρωνικών δικτύων και της από άκρο σε άκρο μοντελοποίησης. Επί του παρόντος, οι vocoders και τα ακουστικά μοντέλα χρησιμοποιούνται συχνά σε κλιμακωτά συστήματα μετατροπής κειμένου σε ομιλία (TTS), με τα φασματογραφήματα μελ να λειτουργούν ως ενδιάμεσες αναπαραστάσεις. Υψηλής ποιότητας ομιλία από έναν μεμονωμένο ομιλητή ή μια ομάδα ομιλητών μπορεί να συντεθεί από εξελιγμένα συστήματα TTS.

Η τεχνολογία TTS έχει ενσωματωθεί σε ένα ευρύ φάσμα εφαρμογών και συσκευών, όπως εικονικοί βοηθοί όπως η Alexa της Amazon και ο Google Assistant, εφαρμογές πλοήγησης και πλατφόρμες ηλεκτρονικής μάθησης. Χρησιμοποιείται επίσης σε κλάδους όπως η ψυχαγωγία, η διαφήμιση και η εξυπηρέτηση πελατών για τη δημιουργία πιο ελκυστικών και εξατομικευμένων εμπειριών.

Πηγή:Microsoft Unveils VALL-E, A Game-Changing TTS Language Model (infoq.com)