Τα μοντέλα τεχνητής νοημοσύνης ομιλίας ανοικτού κώδικα της Meta υποστηρίζουν πάνω από 1.100 γλώσσες

13/06/2023 | | |

Περίληψη άρθρου:
Το πρόγραμμα Massively Multilingual Speech (MMS) υπό την καθοδήγηση της Meta έχει κάνει αξιοσημείωτα βήματα στην επέκταση της γλωσσικής κάλυψης και στη βελτίωση της απόδοσης των μοντέλων αναγνώρισης και σύνθεσης ομιλίας. Συνδυάζοντας τεχνικές αυτοεπιβλεπόμενης μάθησης με ένα ποικιλόμορφο σύνολο δεδομένων θρησκευτικών αναγνώσεων, το έργο πέτυχε εντυπωσιακά αποτελέσματα στην αύξηση των περίπου 100 γλωσσών που υποστηρίζονται από τα υπάρχοντα μοντέλα αναγνώρισης ομιλίας σε πάνω από 1.100 γλώσσες. Η αξιολόγηση των μοντέλων που εκπαιδεύτηκαν στα δεδομένα MMS αποκάλυψε εντυπωσιακά αποτελέσματα, με το μισό ποσοστό λεκτικών σφαλμάτων, ενώ καλύπτουν 11 φορές περισσότερες γλώσσες. Το έργο δημιούργησε επίσης με επιτυχία συστήματα μετατροπής κειμένου σε ομιλία για πάνω από 1.100 γλώσσες, με παραγόμενη ομιλία υψηλής ποιότητας παρά τον περιορισμό της ύπαρξης σχετικά λίγων διαφορετικών ομιλητών για πολλές γλώσσες.

Κύρια σημεία του άρθρου:

Το πρόγραμμα Massively Multilingual Speech (MMS) υπό την καθοδήγηση της Meta έχει σημειώσει σημαντική πρόοδο στην επέκταση της γλωσσικής κάλυψης και στη βελτίωση της απόδοσης των μοντέλων αναγνώρισης και σύνθεσης ομιλίας.
Το έργο MMS αξιοποίησε τα οφέλη της αυτοεπιβλεπόμενης μηχανικής μάθησης αναπαράστασης ομιλίας wav2vec 2.0 για να μειώσει την εξάρτηση από δεδομένα με ετικέτες.
Η αξιολόγηση των μοντέλων που εκπαιδεύτηκαν στα δεδομένα MMS αποκάλυψε εντυπωσιακά αποτελέσματα, με το μισό ποσοστό λεκτικών σφαλμάτων, ενώ κάλυπτε 11 φορές περισσότερες γλώσσες.
Το έργο MMS δημιούργησε με επιτυχία συστήματα μετατροπής κειμένου σε ομιλία για περισσότερες από 1.100 γλώσσες, με παραγόμενη ομιλία υψηλής ποιότητας παρά τον περιορισμό της ύπαρξης σχετικά λίγων διαφορετικών ομιλητών.
Το έργο MMS δίνει έμφαση στη συνεργασία μεταξύ της κοινότητας της τεχνητής νοημοσύνης για τον μετριασμό των κινδύνων λανθασμένων μεταγραφών ή παρερμηνειών από το μοντέλο μετατροπής ομιλίας σε κείμενο.

Αναλυτικά το άρθρο:
Το πρόγραμμα Massively Multilingual Speech (MMS) υπό την αιγίδα της Meta αντιμετωπίζει την πρόκληση της ανάπτυξης μοντέλων μηχανικής μάθησης υψηλής ποιότητας για πολλές γλώσσες, χρησιμοποιώντας τεχνικές αυτοεπιβλεπόμενης μάθησης και ένα ποικίλο σύνολο δεδομένων θρησκευτικών αναγνώσεων. Το έργο έχει επεκτείνει τη γλωσσική κάλυψη και έχει βελτιώσει την απόδοση των μοντέλων αναγνώρισης και σύνθεσης ομιλίας από 100 περίπου γλώσσες από την υποστήριξη μοντέλων σε πάνω από 1.100 γλώσσες. Αυτή η πρόοδος στην τεχνολογία μηχανικής μάθησης και αναγνώρισης ομιλίας έχει καταστήσει τις πληροφορίες πιο προσιτές στους ανθρώπους, ιδίως σε εκείνους που βασίζονται στη φωνή για να έχουν πρόσβαση σε πληροφορίες.

Κατάρριψη των γλωσσικών φραγμών
Το πρόγραμμα MMS χρησιμοποίησε θρησκευτικά κείμενα, όπως η Βίβλος, για να δημιουργήσει ένα σύνολο δεδομένων με αναγνώσεις της Καινής Διαθήκης σε περισσότερες από 1.100 γλώσσες. Με τη συμπερίληψη μη επισημασμένων ηχογραφήσεων άλλων θρησκευτικών αναγνώσεων, το έργο διεύρυνε τη γλωσσική κάλυψη ώστε να αναγνωρίζονται πάνω από 4.000 γλώσσες. Τα μοντέλα απέδωσαν εξίσου καλά για ανδρικές και γυναικείες φωνές και δεν εισήγαγαν καμία θρησκευτική προκατάληψη.

Αντιμετώπιση των προκλήσεων μέσω της αυτοεπιβλεπόμενης μάθησης
Το έργο MMS αξιοποίησε την τεχνική εκμάθησης αναπαράστασης ομιλίας με αυτοεπίβλεψη wav2vec 2.0 για να μειώσει την εξάρτηση από δεδομένα με ετικέτες για την εκπαίδευση συμβατικών μοντέλων αναγνώρισης ομιλίας με επίβλεψη. Εκπαιδεύοντας μοντέλα με αυτοεπίβλεψη σε περίπου 500.000 ώρες δεδομένων ομιλίας σε 1.400 γλώσσες, το έργο μπόρεσε να συντονίσει τα μοντέλα για συγκεκριμένες εργασίες ομιλίας, όπως η πολύγλωσση αναγνώριση ομιλίας και η αναγνώριση γλώσσας. Αυτό επέτρεψε στο έργο να επιτύχει καλά αποτελέσματα με μόνο 32 ώρες δεδομένων ανά γλώσσα.

Εντυπωσιακά αποτελέσματα
Το έργο MMS έχει δημιουργήσει με επιτυχία συστήματα μετατροπής κειμένου σε ομιλία για περισσότερες από 1.100 γλώσσες, παρουσιάζοντας το μισό ποσοστό λεκτικών σφαλμάτων από το Whisper του OpenAI, ενώ καλύπτει 11 φορές περισσότερες γλώσσες. Παρά τα εντυπωσιακά αποτελέσματα, τα μοντέλα MMS δεν είναι τέλεια και θα μπορούσαν να οδηγήσουν σε προσβλητική ή ανακριβή γλώσσα. Το έργο MMS δίνει έμφαση στη συνεργασία μεταξύ της κοινότητας της τεχνητής νοημοσύνης για τον μετριασμό αυτών των κινδύνων.

Πηγή: Meta’s open-source speech AI models support over 1,100 languages

Τα μοντέλα τεχνητής νοημοσύνης ομιλίας ανοικτού κώδικα της Meta υποστηρίζουν πάνω από 1.100 γλώσσες

Newsletter