Περίληψη άρθρου: 
Η Voice.ai, μια νεοσύστατη εταιρεία που προσφέρει τεχνολογία αλλαγής φωνής σε πραγματικό χρόνο, συγκέντρωσε 6 εκατομμύρια δολάρια στον πρώτο γύρο εξωτερικής χρηματοδότησης. Η εταιρεία σχεδιάζει να χρησιμοποιήσει τη χρηματοδότηση για να επεκτείνει την ομάδα της, να αναπτύξει νέα κιτ ανάπτυξης λογισμικού (SDK) και διεπαφές προγραμματισμού εφαρμογών (API) και να προσθέσει υποστήριξη πολλαπλών γλωσσών. Επί του παρόντος, τα εργαλεία της Voice.ai χρησιμοποιούνται από παίκτες, δημιουργούς περιεχομένου, Vtubers και άλλους σε πλατφόρμες όπως το TikTok, το Zoom, το Discord, το Minecraft και το Fortnite. Η διεπαφή της εταιρείας επιτρέπει στους χρήστες να δημιουργούν νέες φωνές ή να επιλέγουν από μια βιβλιοθήκη με πάνω από 50.000 προ-δημιουργημένες φωνές. Ο γύρος χρηματοδότησης πραγματοποιήθηκε υπό την καθοδήγηση της Mucker Capital και της M13. Η Voice.ai έχει ήδη συγκεντρώσει περισσότερους από 480.000 χρήστες μέσω παραπομπών από στόμα σε στόμα και αυτοχρηματοδότησης ύψους 3 εκατομμυρίων δολαρίων. Η νεοφυής επιχείρηση στοχεύει στον εκδημοκρατισμό της πρόσβασης των καταναλωτών στην τεχνολογία φωνητικής τεχνητής νοημοσύνης, προσφέροντας προσιτές λύσεις που προηγουμένως ήταν διαθέσιμες μόνο σε επιχειρήσεις.


Κύρια σημεία του άρθρου: 

  • Η Voice.ai συγκέντρωσε χρηματοδότηση ύψους 6 εκατομμυρίων δολαρίων για να επεκτείνει την τεχνολογία αλλαγής της φωνής της.
  • Η Voice.ai επικεντρώνεται στο να φέρει τεχνολογία που προηγουμένως προοριζόταν για εταιρίες επιχειρήσεων απευθείας στα χέρια των καταναλωτών.
  • Το κοινό της εταιρείας είναι επί του παρόντος 70% άνδρες και 30% γυναίκες, με δυνατότητες για νέες κατηγορίες χρηστών, συμπεριλαμβανομένων των διαφυλικών ατόμων.
  • Η Voice.ai προσπαθεί να αυτοπροσδιοριστεί ως η εφαρμογή τροποποίησης φωνής τεχνητής νοημοσύνης για κάθε άνθρωπο.
  • Η Mucker Capital και η M13 ηγούνται του γύρου, ενώ σχεδιάζει να χρησιμοποιήσει τη χρηματοδότηση για να προσλάβει περισσότερα τεχνικά ταλέντα και να δημιουργήσει νέα SDKs και APIs.

Αναλυτικά το άρθρο:
Υπηρεσίες όπως το Midjourney και το ChatGPT έχουν διευρύνει τα όρια του τρόπου με τον οποίο η τεχνητή νοημοσύνη μπορεί να δημιουργήσει εικόνες και κείμενο από βασικές προτροπές κειμένου. Τώρα, ο ήχος φαίνεται να είναι το αναπόφευκτο επόμενο σύνορο. Η παραγωγή μουσικής με βάση λεκτικές προτροπές, οι εκπαιδευτές τεχνητής νοημοσύνης για την εκμάθηση γλωσσών και οι προσομοιωτές φωνής έχουν γνωρίσει εξελίξεις τους τελευταίους μήνες. Η Voice.ai ελπίζει να αποτελέσει μέρος αυτής της συζήτησης (χεχ) με την τεχνολογία που επιτρέπει στους χρήστες να αλλάζουν (και να μεταμφιέζουν) τη φωνή τους σε πραγματικό χρόνο, και τώρα έχει συγκεντρώσει την πρώτη της εξωτερική χρηματοδότηση μετά την πρώιμη ανάπτυξή της.

Με περισσότερους από 480.000 χρήστες και μια βιβλιοθήκη με περισσότερα από 50.000 φίλτρα φωνής, η Voice.ai συγκέντρωσε 6 εκατομμύρια δολάρια, χρηματοδότηση που σκοπεύει να χρησιμοποιήσει για να μεταφέρει την τεχνολογία αλλαγής φωνής της σε νέα μέρη.

Η Mucker Capital και η M13 ηγούνται του γύρου. Μέχρι τώρα, η Voice.ai αναπτύχθηκε από στόμα σε στόμα - η νεοσύστατη επιχείρηση έχει ένα κανάλι Discord με περισσότερους από 120.000 ανθρώπους - με την υποστήριξη αυτοχρηματοδότησης ύψους 3 εκατομμυρίων δολαρίων.

Επί του παρόντος, τα εργαλεία της εταιρείας - διαθέσιμα ως εφαρμογές για Mac, PC, Android και iOS - υιοθετούνται από παίκτες, δημιουργούς περιεχομένου, Vtubers και άλλους στο TikTok, Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us, Skype, WhatsApp και άλλες πλατφόρμες. Η διεπαφή Voice.ai τους επιτρέπει να δημιουργήσουν μια νέα φωνή ή να επιλέξουν από περίπου 50.000 διαφορετικές προ-δημιουργημένες φωνές (που δημιουργήθηκαν και μοιράστηκαν από χρήστες όπως οι ίδιοι), οι οποίες μπορούν να χρησιμοποιηθούν ως έχουν ή τροποποιημένες, να χρησιμοποιηθούν ζωντανά σε υποστηριζόμενες πλατφόρμες ή για ηχογραφήσεις.

Το σχέδιο είναι να χρησιμοποιηθεί η χρηματοδότηση για να προσληφθούν περισσότερα τεχνικά ταλέντα και να δημιουργηθούν νέα SDKs και APIs για να συνεργαστούν με περαιτέρω πλατφόρμες όπως η Meta, η Unreal και η Unity, να υπάρξει υποστήριξη πολλαπλών γλωσσών και να προστεθούν νέες εφαρμογές, όπως το τραγούδι, όπου η φωνή βρίσκεται στο επίκεντρο.

Η startup δεν το ξεχωρίζει, αλλά θα έχει ενδιαφέρον να δούμε αν θα χρησιμοποιήσει μέρος της χρηματοδότησης και για να αυξήσει τη χωρητικότητα του διακομιστή.
Αυτό δεν είναι μικρό βάρος. Ανέκδοτα, έχουμε ακούσει ότι ο πόνος της GPU είναι ένας από τους μεγαλύτερους παράγοντες πύλης για το πώς πολλές εφαρμογές AI είναι σε θέση να κλιμακωθούν αυτή τη στιγμή. (Είναι εν μέρει ο λόγος για τον οποίο βλέπετε να γίνονται μεγάλες συμφωνίες που περιλαμβάνουν στρατηγικές που παρέχουν ικανότητα επεξεργασίας και διακομιστή).

Ειδικότερα για την Voice.ai, η φωνή σας επεξεργάζεται τοπικά και διοχετεύεται στον τόπο όπου θα χρησιμοποιηθεί μέσω αυτού που ο ιδρυτής και διευθύνων σύμβουλος Heath Ahrens μου περιέγραψε ως "εικονικό καλώδιο ήχου". Αλλά όταν κοιτάζετε τις κριτικές των εφαρμογών της, ένα κοινό παράπονο είναι ότι όταν εγγραφείτε μπαίνετε σε λίστα αναμονής επειδή "η συντριπτική ζήτηση έχει τους διακομιστές μας στη μέγιστη χωρητικότητα" με την υπόσχεση ότι θα ενημερωθείτε όταν η υπηρεσία αυξήσει αυτή τη χωρητικότητα.

Υπάρχουν δεκάδες υπηρεσίες ομιλίας προς φωνή και φωνής προς ομιλία στην αγορά σήμερα, και ήδη υπάρχει μεγάλη δραστηριότητα μεταξύ τους: Πέρυσι το Spotify εξαγόρασε τη Sonantic και η Snap αγόρασε έναν βοηθό φωνής τεχνητής νοημοσύνης ακόμη νωρίτερα- μια άλλη startup, η Sanas, εργάζεται για την αλλαγή της προφοράς σας και υπάρχουν οι προσομοιωτές φωνής Murf και Acapela, μεταξύ πολλών άλλων.

 Η Voice.ai συγκαταλέγεται στην ίδια γενική κατηγορία με τις Respeecher και ElevenLabs, δύο startups AI φωνής προς φωνή, που επιτρέπουν στους χρήστες να εφαρμόζουν μάσκες για να βελτιώσουν ή να μεταμορφώσουν εντελώς τη φωνή τους - σε ορισμένες περιπτώσεις δημιουργώντας εντελώς συνθετικές φωνές στη θέση της πραγματικής.

Η Respeecher, η οποία ιδρύθηκε και εδρεύει στην Ουκρανία, έγινε γνωστή βοηθώντας στη δημιουργία μιας νέας φωνής του Darth Vader για τις νέες σειρές του Star Wars, με βάση το πώς ακουγόταν ο James Earl Jones πριν από 45 χρόνια όταν ερμήνευσε τον ρόλο. (Σύμφωνα με τον χαρακτήρα που έχει βαλθεί να καταστρέψει κόσμους, η φωνή του Νταρθ παραδόθηκε στον πελάτη του Χόλιγουντ από τα γραφεία του στην Ουκρανία, καθώς η Ρωσία εισέβαλε στη χώρα).

Η ElevenLabs - ως γνωστόν (ή ως κακόφημα, ανάλογα με την περίπτωση) - έχει δημιουργήσει μια πλατφόρμα που είναι τρομακτικά καλή στην κλωνοποίηση φωνών, και νωρίτερα αυτό το μήνα πήρε τον πιο πρόσφατο γύρο χρηματοδότησής της, ύψους 19 εκατομμυρίων δολαρίων, από μια ομάδα μεγάλων επενδυτών.

Η Voice.ai προσπαθεί, μέσα σε αυτό το μείγμα, να τοποθετηθεί ως η εφαρμογή τροποποίησης φωνής AI για κάθε άνθρωπο.

"Υπάρχουν πολλές εταιρείες που προσπαθούν να παρέχουν μια διαφορετική γεύση της τεχνολογίας φωνής στις επιχειρήσεις", δήλωσε ο Ahrens στο TechCrunch σε ένα email (ειρωνικά, δεν ήταν δυνατόν να κανονιστεί μια ζωντανή συνέντευξη μαζί του). Ο Ahrens έχει κάποια εμπειρία με την οικοδόμηση της τεχνολογίας B2B AI: οι δύο προηγούμενες εταιρείες του - η iSpeech για text-to-speech και η Haystack για αναγνώριση προσώπου - είναι χτισμένες γύρω από προσφορές API.

"Αυτό που κάνει τη Voice.ai να ξεχωρίζει είναι ότι επικεντρωνόμαστε στο να φέρουμε τεχνολογία που προηγουμένως προοριζόταν για εταιρίες επιχειρήσεων απευθείας στα χέρια των καταναλωτών με προσιτό τρόπο". Πολλοί χρήστες, σημείωσε, "έρχονται σε εμάς από τους κλασικούς DSP voice changers και voice modulators που χρησιμοποιούσαν στο παρελθόν και οι οποίοι εξακολουθούν να είναι δημοφιλείς μεταξύ πολλών gamers και streamers".

Το "προσιτό" έρχεται σε δύο επίπεδα, με τους περισσότερους χρήστες τώρα σε μια δωρεάν υπηρεσία που απαιτεί να επιλέξουν να παρέχουν υπολογιστική ισχύ για την εκπαίδευση των μοντέλων της Voice.ai, με την υπηρεσία της να βασίζεται στο δικό της ιδιωτικό σύνολο δεδομένων που αποτελείται από "εκατομμύρια μοναδικούς χρήστες". Στον ιστότοπο δεν παρέχεται καμία τιμολόγηση: ζητάμε αυτές τις λεπτομέρειες.

"Πιστεύουμε στο να κάνουμε την τεχνολογία προσιτή και σχεδιάζουμε να συνεργαστούμε με την κοινότητα ανοιχτού κώδικα για τον εκδημοκρατισμό της τεχνολογίας Voice AI", πρόσθεσε ο Ahrens.

Η Voice.ai ισχυρίζεται επίσης ότι υιοθετεί μια ριζικά διαφορετική προσέγγιση στην πρόκληση της αλλαγής μιας φωνής, αξιοποιώντας μέρος του ήθους που έχει δημιουργηθεί γύρω από τη χρήση avatars από Vtubers, gamers και άλλους online.

"Οι περισσότερες εταιρείες φωνητικής τεχνητής νοημοσύνης που εισέρχονται στο χώρο προσπαθούν να δημιουργήσουν κλιμακούμενες λύσεις κειμένου-σε-ομιλία με επίκεντρο τις επιχειρήσεις ή ακριβές υπηρεσίες φωνής-σε-φωνή για στούντιο παραγωγής", δήλωσε ο Ahrens. "Εμείς ξεκινάμε από το αντίθετο φάσμα και προσπαθούμε να παρέχουμε αξία σε ιδιώτες που επιθυμούν να επεκτείνουν τον τρόπο με τον οποίο ακούγονται στο διαδίκτυο. 

Η βασική πρόταση αξίας της τεχνητής νοημοσύνης μας από ομιλία σε ομιλία δεν είναι ότι μπορεί να αναπαράγει τέλεια οποιοδήποτε άτομο. Είναι ότι διατηρεί τα βασικά στοιχεία της ομιλίας ενός χρήστη: το συναίσθημα, τον ρυθμό και την έμφαση, ενώ αντικαθιστά τον ήχο της φωνής, προκειμένου να δημιουργήσει ένα εντελώς μοναδικό νέο τελικό αποτέλεσμα, σε πραγματικό χρόνο".

Μπορεί να οφείλεται στον τρόπο με τον οποίο κλίνουν τα δημογραφικά στοιχεία σε διαδραστικές πλατφόρμες όπως το gaming, αλλά προς το παρόν το κοινό της Voice.ai είναι 70% άνδρες έναντι 30% γυναικών, με νέες κατηγορίες να ανοίγουν όχι μόνο γύρω από το ποιος χρησιμοποιεί την τεχνολογία, αλλά και γιατί.

Αυτό περιλαμβάνει όχι μόνο εκείνους που χρησιμοποιούν avatars και κατασκευάζουν φωνές που ταιριάζουν με αυτά, ή εκείνους που αναζητούν μεγαλύτερη προστασία της ιδιωτικής ζωής, αλλά και, όπως είπε, "τους τρανσέξουαλ χρήστες που μπορούν να εκπροσωπούν τους εαυτούς τους με φωνές που ταιριάζουν με την ταυτότητά τους, καθώς και τους χρήστες που εξερευνούν εντελώς νέες διαδικτυακές προσωπικότητες για τον εαυτό τους".

Υπάρχει ήδη μια βάση χρηστών που αξιοποιούν τις προσφορές της Voice.ai απευθείας προς τους καταναλωτές, αλλά ένας από τους λόγους για τους οποίους η Mucker επενδύει στην startup είναι επειδή πιστεύει ότι υπάρχει η ευκαιρία να δημιουργηθεί ένα δίκτυο προγραμματιστών που χρησιμοποιούν και ενσωματώνουν την τεχνολογία της.


"Η Voice.ai είναι έτοιμη να φέρει επανάσταση στην κοινότητα των προγραμματιστών AI με τρόπο παρόμοιο με τον αντίκτυπο της AdMob στην κοινότητα των προγραμματιστών εφαρμογών για κινητά", δήλωσε ο Omar Hamoui, εταίρος του κύριου επενδυτή Mucker Capital. (Ο Hamoui ίδρυσε προηγουμένως τη νεοσύστατη εταιρεία διαφημίσεων για κινητά AdMob, η οποία τελικά εξαγοράστηκε από την Google, οπότε έχει κάποια άμεση εμπειρία στην κατασκευή εργαλείων για προγραμματιστές κινητών συσκευών). "Προσφέροντας φιλικές προς τον χρήστη λύσεις που κάποτε ήταν αποκλειστικότητα των μεγάλων επιχειρήσεων, η Voice.ai στοχεύει στον εκδημοκρατισμό της πρόσβασης για τους προγραμματιστές σε όλο τον κόσμο".

Ο Karl Alomar, πρώην COO της Digital Ocean, ο οποίος ηγήθηκε της επένδυσης για την M13, δήλωσε ότι οι επενδυτές θα αναλάβουν ενεργό ρόλο στο επόμενο στάδιο ανάπτυξης. "Και στην Digital Ocean είδαμε την αξία της δημιουργίας μιας κοινότητας κατασκευαστών από κατασκευαστές", δήλωσε. "Είμαστε ενθουσιασμένοι που οι δημιουργοί και οι προγραμματιστές θα χτίσουν πάνω στην πλατφόρμα Voice.ai

Πηγή: Voice.ai raises $6M as its real-time voice changer approaches 500K users | TechCrunch