Η ElevenLabs βγαίνει από το Beta και κυκλοφορεί το Eleven Multilingual v2 - ένα θεμελιώδες μοντέλο ομιλίας τεχνητής νοημοσύνης για σχεδόν 30 γλώσσες

08/09/2023 | | |

Περίληψη άρθρου:
Η ElevenLabs, μια πλατφόρμα φωνητικής τεχνητής νοημοσύνης, κυκλοφόρησε ένα νέο πολύγλωσσο μοντέλο βαθιάς μάθησης που υποστηρίζει 28 γλώσσες. Αυτή η πρόοδος θα βελτιώσει την προσβασιμότητα του περιεχομένου για τις εταιρείες μέσων ενημέρωσης, τους προγραμματιστές παιχνιδιών, τους εκδότες και τους ανεξάρτητους δημιουργούς παγκοσμίως. Σηματοδοτεί επίσης το τέλος της φάσης Beta της ElevenLabs και ευθυγραμμίζεται με την αποστολή της να καταστήσει όλο το περιεχόμενο καθολικά προσβάσιμο σε οποιαδήποτε γλώσσα και φωνή. Το νέο μοντέλο μπορεί να αναγνωρίζει τις γραπτές γλώσσες και να παράγει ομιλία σε αυτές με αυθεντικό τρόπο, διατηρώντας παράλληλα τα μοναδικά χαρακτηριστικά της φωνής του ομιλητή. Η έκδοση ανοίγει ευκαιρίες για τους δημιουργούς στις διεθνείς αγορές και βελτιώνει την κατανόηση της γλώσσας για τους μαθητές.

Κύρια σημεία του άρθρου:

Η ElevenLabs κυκλοφόρησε ένα νέο πολύγλωσσο μοντέλο παραγωγής φωνής, ικανό να παράγει με ακρίβεια "συναισθηματικά πλούσιο" ήχο τεχνητής νοημοσύνης σε σχεδόν 30 γλώσσες.
Αυτή η πρόοδος θα επιτρέψει σε εταιρείες μέσων ενημέρωσης, προγραμματιστές παιχνιδιών, εκδότες και ανεξάρτητους δημιουργούς σε όλο τον κόσμο να βελτιώσουν δραματικά την προσβασιμότητα του περιεχομένου τους.
Η ElevenLabs επιβεβαίωσε επίσης σήμερα ότι η πλατφόρμα βγαίνει επίσημα από την Beta.
Το πολύγλωσσο εργαλείο σύνθεσης ομιλίας είναι ένα ακόμη βήμα προς τα εμπρός στην αποστολή της ElevenLabs να καταστήσει όλο το περιεχόμενο καθολικά προσβάσιμο σε οποιαδήποτε γλώσσα και με οποιαδήποτε φωνή.
Οι υποστηριζόμενες γλώσσες περιλαμβάνουν τώρα: Κινέζικα, Κορεάτικα, Ολλανδικά, Τουρκικά, Σουηδικά, Ινδονησιακά, Φιλιππινέζικα, Ιαπωνικά, Ουκρανικά, Ελληνικά, Τσεχικά, Φινλανδικά, Ρουμανικά, Δανικά, Βουλγαρικά, Μαλαισιανά, Σλοβακικά, Κροατικά, κλασικά Αραβικά και Ταμίλ.

Αναλυτικά το άρθρο:
Η εξέλιξη αυτή θα επιτρέψει στις εταιρείες μέσων ενημέρωσης, στους προγραμματιστές παιχνιδιών, στους εκδότες και στους ανεξάρτητους δημιουργούς σε όλο τον κόσμο να βελτιώσουν δραματικά την προσβασιμότητα του περιεχομένου τους.

Η πλατφόρμα φωνητικής τεχνητής νοημοσύνης ElevenLabs κάνει ένα ριζικό άλμα προς τα εμπρός στις προσπάθειές της να εξαλείψει τους γλωσσικούς φραγμούς του περιεχομένου με την κυκλοφορία ενός νέου θεμελιώδους μοντέλου βαθιάς μάθησης που υποστηρίζει πολύγλωσσες δυνατότητες σε 28 γλώσσες - το Eleven Multilingual v2.
Η πρόοδος αυτή θα επιτρέψει στις εταιρείες μέσων ενημέρωσης, στους προγραμματιστές παιχνιδιών, στους εκδότες και στους ανεξάρτητους δημιουργούς σε όλο τον κόσμο να βελτιώσουν δραστικά την προσβασιμότητα του περιεχομένου τους.
Αυτές οι νέες δυνατότητες, οι οποίες ακολουθούν μια σειρά από κυκλοφορίες νέων χαρακτηριστικών και βελτιώσεις από την έναρξη λειτουργίας της πλατφόρμας τον Ιανουάριο, σηματοδοτούν επίσης το επίσημο τέλος της φάσης Beta της εταιρείας
Αποστολή της ElevenLabs είναι να καταστήσει όλο το περιεχόμενο καθολικά προσβάσιμο σε οποιαδήποτε γλώσσα και με οποιαδήποτε φωνή

Η ElevenLabs, ο παγκόσμιος ηγέτης στο λογισμικό φωνητικής τεχνητής νοημοσύνης, εγκαινίασε σήμερα ένα νέο πολύγλωσσο μοντέλο παραγωγής φωνής, ικανό να παράγει με ακρίβεια "συναισθηματικά πλούσιο" ήχο τεχνητής νοημοσύνης σε σχεδόν 30 γλώσσες.

Η πρόοδος, που βασίζεται εξ ολοκλήρου σε εσωτερική έρευνα, θα επιτρέψει στους δημιουργούς να παράγουν τοπικό ηχητικό περιεχόμενο για διεθνείς αγορές σε Ευρώπη, Ασία και Μέση Ανατολή. Η ElevenLabs πέρασε τους τελευταίους 18 μήνες αναλύοντας τους δείκτες της ανθρώπινης ομιλίας, δημιουργώντας νέους μηχανισμούς για την κατανόηση του πλαισίου και τη μεταφορά συναισθημάτων στην παραγωγή ομιλίας, καθώς και για τη σύνθεση νέων, μοναδικών φωνών.

Με το Eleven Multilingual v2, όταν εισάγεται κείμενο στην πλατφόρμα μετατροπής κειμένου σε ομιλία της ElevenLabs, το νέο μοντέλο μπορεί να αναγνωρίζει αυτόματα σχεδόν 30 γραπτές γλώσσες και να παράγει ομιλία σε αυτές με πρωτοφανή αυθεντικότητα.

Ταυτόχρονα, ανεξάρτητα από το αν χρησιμοποιείται συνθετική φωνή ή κλωνοποιημένη φωνή, τα μοναδικά χαρακτηριστικά της φωνής του ομιλητή διατηρούνται σε όλες τις γλώσσες, συμπεριλαμβανομένης της αρχικής προφοράς του. Αυτό σημαίνει ότι η ίδια φωνή μπορεί να χρησιμοποιηθεί για να ζωντανέψει περιεχόμενο σε 28 διαφορετικές γλώσσες.

Αυτή η εξάπλωση ακολουθεί τη δημόσια διάθεση της Professional Voice Cloning σε όλους τους δημιουργούς της πλατφόρμας. Αυτή η ενημέρωση του προϊόντος, η οποία έγινε διαθέσιμη μαζί με πρόσθετα χαρακτηριστικά ασφαλείας και προστασίας, επιτρέπει στους χρήστες να δημιουργήσουν ένα τέλειο ψηφιακό αντίγραφο της φωνής τους- ένα αντίγραφο που είναι πρακτικά δυσδιάκριτο από το πρωτότυπο. Η σημερινή κυκλοφορία σημαίνει ότι η φωνή σας θα μπορεί να μιλάει σε όλες τις σχεδόν 30 γλώσσες που προσφέρει το πολύγλωσσο μοντέλο.

Οι υποστηριζόμενες γλώσσες περιλαμβάνουν τώρα: Κινέζικα, Κορεάτικα, Ολλανδικά, Τουρκικά, Σουηδικά, Ινδονησιακά, Φιλιππινέζικα, Ιαπωνικά, Ουκρανικά, Ελληνικά, Τσεχικά, Φινλανδικά, Ρουμανικά, Δανικά, Βουλγαρικά, Μαλαισιανά, Σλοβακικά, Κροατικά, κλασικά Αραβικά και Ταμίλ.

Προστίθενται στις ήδη διαθέσιμες γλώσσες, συμπεριλαμβανομένων των Αγγλικών, Πολωνικών, Γερμανικών, Ισπανικών, Γαλλικών, Ιταλικών, Ινδικών και Πορτογαλικών.
Μετά τις πρόσφατες παρουσιάσεις λειτουργιών και τις συνεχείς βελτιώσεις της πλατφόρμας, η ElevenLabs επιβεβαίωσε επίσης σήμερα ότι η πλατφόρμα βγαίνει επίσημα από την Beta. Αυτή η μετάβαση σηματοδοτεί μια κομβική στιγμή στην αφοσίωση της εταιρείας να παρέχει αξιόπιστα και πρωτοποριακά εργαλεία για τους 1 εκατομμύριο και πλέον χρήστες της παγκοσμίως.

Όσον αφορά το μέλλον, η ElevenLabs σχεδιάζει να εισαγάγει έναν μηχανισμό που θα επιτρέπει στους χρήστες να μοιράζονται φωνές στην πλατφόρμα και να επωφελούνται από την ανάπτυξη νέου ήχου, προωθώντας τις ευκαιρίες για τη συνεργασία ανθρώπου-ΑΙ.

Ο Mati Staniszewski, διευθύνων σύμβουλος και συνιδρυτής της ElevenLabs, σχολιάζει:

Η ElevenLabs ξεκίνησε με το όνειρο να καταστήσει όλο το περιεχόμενο καθολικά προσβάσιμο σε οποιαδήποτε γλώσσα και με οποιαδήποτε φωνή. Με την κυκλοφορία του Eleven Multilingual v2, βρισκόμαστε ένα βήμα πιο κοντά στο να κάνουμε αυτό το όνειρο πραγματικότητα και να καταστήσουμε τις ανθρώπινης ποιότητας φωνές τεχνητής νοημοσύνης διαθέσιμες σε κάθε διάλεκτο.

"Τα εργαλεία μας για τη δημιουργία κειμένου σε ομιλία βοηθούν στην ισοπέδωση των όρων ανταγωνισμού και φέρνουν δυνατότητες προφορικού ήχου κορυφαίας ποιότητας σε όλους τους δημιουργούς εκεί έξω. Αυτά τα οφέλη επεκτείνονται τώρα σε πολύγλωσσες εφαρμογές σε σχεδόν 30 γλώσσες. Τελικά ελπίζουμε να καλύψουμε ακόμη περισσότερες γλώσσες και φωνές με τη βοήθεια της AI και να εξαλείψουμε τα γλωσσικά εμπόδια στο περιεχόμενο. Στην ElevenLabs, πιστεύουμε ότι αυτά τα άλματα στην προσβασιμότητα θα προωθήσουν τελικά μεγαλύτερη δημιουργικότητα, καινοτομία και ποικιλομορφία.

Μειώνοντας το κόστος και τους πόρους που απαιτούνται για τη δημιουργία υψηλής ποιότητας ηχητικού περιεχομένου σε πολλές γλώσσες, η ElevenLabs δίνει τη δυνατότητα στις εταιρείες και τους δημιουργούς να παράγουν πιο ευφάνταστο και προσβάσιμο περιεχόμενο που βρίσκει απήχηση σε όλους τους πολιτισμούς και τις γλώσσες.

Για τους ανεξάρτητους προγραμματιστές και εκδότες παιχνιδιών, το εργαλείο δημιουργίας πολύγλωσσου λόγου παρέχει νέες ευκαιρίες για τη μετάφραση εμπειριών παιχνιδιών και ηχητικού περιεχομένου για το διεθνές κοινό, συνδέοντας τους παίκτες και τους ακροατές στις γλώσσες τους χωρίς συμβιβασμούς στην ποιότητα ή την ακρίβεια του προφορικού ήχου.

Ομοίως, τα εκπαιδευτικά ιδρύματα έχουν πλέον τα μέσα να παρέχουν στους μαθητές ακριβές ηχητικό περιεχόμενο στις γλώσσες-στόχους άμεσα, ενισχύοντας την κατανόηση της γλώσσας και τις δεξιότητες προφοράς, καθώς και να καλύπτουν τις διαφορετικές μορφές διδασκαλίας και τις μαθησιακές ανάγκες των διεθνών φοιτητών.

Οι δημιουργοί όλων των τύπων μπορούν να χρησιμοποιήσουν το εργαλείο της ElevenLabs για να βελτιώσουν την προσβασιμότητα του περιεχομένου για άτομα με προβλήματα όρασης ή πρόσθετες μαθησιακές ανάγκες, συμπληρώνοντας το οπτικό περιεχόμενο με ομιλία διαθέσιμη σε πολλές γλώσσες.

Η αρχική σουίτα εργαλείων τεχνητής νοημοσύνης που παρουσίασε τον Ιανουάριο του 2023 περιελάμβανε τη δυνατότητα μετατροπής οποιουδήποτε κειμένου σε ομιλία μέσω μιας επιλογής προ-σχεδιασμένων, συνθετικών φωνών και τη δυνατότητα δημιουργίας ενός κλώνου της δικής σας φωνής. Το πολύγλωσσο εργαλείο σύνθεσης ομιλίας είναι ένα ακόμη βήμα προς την αποστολή της ElevenLabs να καταστήσει όλο το περιεχόμενο καθολικά προσβάσιμο σε οποιαδήποτε γλώσσα και με οποιαδήποτε φωνή.

Η τεχνολογία έχει ήδη αγκαλιαστεί σε πολλές δημιουργικές καθετοποιήσεις και τομείς, μεταξύ άλλων επιτρέποντας σε ανεξάρτητους συγγραφείς να δημιουργήσουν ακουστικά βιβλία, να εκφράσουν δευτερεύοντες χαρακτήρες σε βιντεοπαιχνίδια, να υποστηρίξουν τα άτομα με προβλήματα όρασης να έχουν πρόσβαση σε διαδικτυακό γραπτό περιεχόμενο και να τροφοδοτήσουν το πρώτο ραδιοφωνικό κανάλι τεχνητής νοημοσύνης στον κόσμο. Η ElevenLabs έχει επίσης συνεργαστεί με μια σειρά από κορυφαίους δημιουργούς περιεχομένου και στούντιο, συμπεριλαμβανομένων των AI video generators D-ID, ενός από τους μεγαλύτερους εκδότες ακουστικών βιβλίων παγκοσμίως, της Storytel, της πλατφόρμας επιστημονικών βίντεο ανοικτής πρόσβασης ScienceCast, της οποίας το εργαλείο παραγωγής βίντεο συμπυκνώνει επιστημονικές ερευνητικές εργασίες που δημοσιεύονται στο arXiv, της κορυφαίας παγκόσμιας πλατφόρμας δημιουργίας περιεχομένου TheSoul Publishing, απίστευτων προγραμματιστών παιχνιδιών, όπως η Embark Studios και η Paradox Interactive, και της πλατφόρμας μέσων ενημέρωσης MNTN.

Πηγή: ElevenLabs Comes Out of Beta and Releases Eleven Multilingual v2 - a Foundational AI Speech Model for Nearly 30 Languages

Η ElevenLabs βγαίνει από το Beta και κυκλοφορεί το Eleven Multilingual v2 - ένα θεμελιώδες μοντέλο ομιλίας τεχνητής νοημοσύνης για σχεδόν 30 γλώσσες

Newsletter