30 Ιανουαρίου 2023

Μετά το ChatGPT και το DALL-E, γνωρίστε το VALL-E - την τεχνητή νοημοσύνη από κείμενο σε ομιλία που μπορεί να μιμηθεί τη φωνή οποιουδήποτε

Περίληψη άρθρου:
Η Microsoft έχει αναπτύξει ένα εργαλείο μετατροπής κειμένου σε φωνή που ονομάζεται VALL-E, το οποίο μπορεί να λάβει μια ηχογράφηση τριών δευτερολέπτων της φωνής κάποιου και να την αναπαράγει, μετατρέποντας τις γραπτές λέξεις σε ομιλία με ρεαλιστικό τονισμό και συναίσθημα. Είναι εκπαιδευμένο με ηχογραφήσεις αγγλικής ομιλίας αξίας 60.000 ωρών και μπορεί να εκφωνήσει μια ομιλία σε "μηδενική κατάσταση" χωρίς προηγούμενα παραδείγματα ή εκπαίδευση. Η Microsoft έχει επενδύσει σημαντικά στην Τεχνητή Νοημοσύνη, συμπεριλαμβανομένης μιας επένδυσης 1 δισεκατομμυρίου δολαρίων στην OpenAI το 2019 και εξετάζει την επένδυση άλλων 10 δισεκατομμυρίων δολαρίων. Έχει παρασχεθεί ένα demo του εργαλείου, το οποίο παρουσιάζει μια σειρά από προτροπές ομιλητή διάρκειας τριών δευτερολέπτων και το text-to-speech σε δράση.


Αναλυτικά το άρθρο:
Πέρυσι εμφανίστηκαν εργαλεία τεχνητής νοημοσύνης (AI) που μπορούν να δημιουργήσουν εικόνες, έργα τέχνης ή ακόμη και βίντεο με μια προτροπή κειμένου.

Υπήρξαν επίσης σημαντικά βήματα προόδου στη γραφή με τεχνητή νοημοσύνη, με το ChatGPT της OpenAI να προκαλεί ευρύτατο ενθουσιασμό - και φόβο - για το μέλλον της γραφής.

Τώρα, μόλις λίγες ημέρες πριν από το 2023, μια άλλη ισχυρή περίπτωση χρήσης της ΤΝ έχει βγει στο προσκήνιο - ένα εργαλείο μετατροπής κειμένου σε φωνή που μπορεί να μιμηθεί άψογα τη φωνή ενός ανθρώπου.

Το VALL-E, που αναπτύχθηκε από τη Microsoft, μπορεί να λάβει μια ηχογράφηση τριών δευτερολέπτων της φωνής κάποιου και να αναπαράγει αυτή τη φωνή, μετατρέποντας τις γραπτές λέξεις σε ομιλία, με ρεαλιστικό τονισμό και συναίσθημα ανάλογα με το πλαίσιο του κειμένου.

Εκπαιδευμένο με ηχογραφήσεις αγγλικής ομιλίας αξίας 60.000 ωρών, μπορεί να εκφωνήσει μια ομιλία σε "μηδενική κατάσταση", δηλαδή χωρίς προηγούμενα παραδείγματα ή εκπαίδευση σε συγκεκριμένο πλαίσιο ή κατάσταση. Παρουσιάζοντας το VALL-E σε μια εργασία που δημοσιεύθηκε από το Πανεπιστήμιο Cornell, οι προγραμματιστές εξήγησαν ότι τα δεδομένα της ηχογράφησης αποτελούνται από περισσότερους από 7.000 μοναδικούς ομιλητές.

Η ομάδα λέει ότι το σύστημα Text To Speech (TTS) χρησιμοποίησε εκατοντάδες φορές περισσότερα δεδομένα από τα υπάρχοντα συστήματα TTS, βοηθώντας τους να ξεπεράσουν το πρόβλημα της μηδενικής λήψης.

Το εργαλείο δεν είναι επί του παρόντος διαθέσιμο για δημόσια χρήση - αλλά εγείρει ερωτήματα σχετικά με την ασφάλεια, δεδομένου ότι θα μπορούσε να χρησιμοποιηθεί εφικτά για τη δημιουργία οποιουδήποτε κειμένου που προέρχεται από τη φωνή οποιουδήποτε.

Η Microsoft ποντάρει πολλά στην τεχνητή νοημοσύνη

Οι δημιουργοί του έχουν, ωστόσο, παράσχει ένα demo, παρουσιάζοντας μια σειρά από προτροπές ομιλητή διάρκειας τριών δευτερολέπτων και μια επίδειξη της μετατροπής κειμένου σε ομιλία σε δράση, με τη φωνή να μιμείται σωστά.

Παράλληλα με την προτροπή ομιλητή και την έξοδο του VALL-E, μπορείτε να συγκρίνετε τα αποτελέσματα με την "βασική αλήθεια" - τον πραγματικό ομιλητή που διαβάζει το κείμενο προτροπής - και το "βασικό" αποτέλεσμα από την τρέχουσα τεχνολογία TTS.

Η Microsoft έχει επενδύσει σημαντικά στην τεχνητή νοημοσύνη και είναι ένας από τους υποστηρικτές της OpenAI, της εταιρείας που βρίσκεται πίσω από το ChatGPT και το DALL-E, ένα εργαλείο μετατροπής κειμένου σε εικόνα ή τέχνη.

Ο γίγαντας του λογισμικού επένδυσε 1 δισεκατομμύριο δολάρια (930 εκατομμύρια ευρώ) στην OpenAI το 2019 και μια έκθεση αυτής της εβδομάδας στο semafor.com ανέφερε ότι εξετάζει την επένδυση άλλων 10 δισεκατομμυρίων δολαρίων (9,3 δισεκατομμυρίων ευρώ) στην εταιρεία.

Πηγή:After ChatGPT and DALL-E, meet VALL-E - the text-to-speech AI that can mimic anyone’s voice | Euronews