Ο CEO της DeepMind: H Google θα ενοποιήσει τα μοντέλα AI Gemini και Veo

15/04/2025 | | |

Περίληψη:

Ο Διευθύνων Σύμβουλος της Google DeepMind, Demis Hassabis, αποκάλυψε ότι η Google σχεδιάζει να συγχωνεύσει τα μοντέλα τεχνητής νοημοσύνης Gemini (πολυτροπικό μοντέλο γενικής χρήσης) και Veo (μοντέλο δημιουργίας βίντεο) με στόχο τη δημιουργία ενός καθολικού ψηφιακού βοηθού που κατανοεί και αλληλεπιδρά με τον φυσικό κόσμο.

Το Veo αντλεί εκπαιδευτικά δεδομένα κυρίως από το YouTube, ενώ η στρατηγική αυτή συνδέεται με την ευρύτερη τάση των λεγόμενων "omni" μοντέλων στην τεχνητή νοημοσύνη.

Κύρια Σημεία:

Η Google σχεδιάζει να ενώσει τα μοντέλα Gemini και Veo για να ενισχύσει την κατανόηση του φυσικού κόσμου από την ΤΝ.
Το Gemini είναι εξ αρχής πολυτροπικό μοντέλο (multimodal), σχεδιασμένο για κείμενο, εικόνα, ήχο και τώρα και βίντεο.
Στόχος είναι ένας “καθολικός ψηφιακός βοηθός” που βοηθά πραγματικά τους ανθρώπους στην καθημερινότητά τους.
Το Veo 2 εκπαιδεύεται κυρίως από βίντεο YouTube, αξιοποιώντας τις φυσικές αλληλεπιδράσεις που περιλαμβάνονται σε αυτά.
Η Google έχει επεκτείνει τους όρους χρήσης του YouTube για να επιτρέψει την εκπαίδευση μοντέλων AI σε περιεχόμενο από την πλατφόρμα
Άλλες εταιρείες, όπως OpenAI και Amazon, αναπτύσσουν επίσης “omni” μοντέλα με δυνατότητες σε πολλαπλούς τύπους μέσων.

Αναλυτικά:

Σε πρόσφατο επεισόδιο του podcast Possible με παρουσιαστή τον Reid Hoffman, ο CEO της Google DeepMind, Demis Hassabis, ανέφερε ότι η Google σκοπεύει να ενοποιήσει τα δύο ισχυρά μοντέλα τεχνητής νοημοσύνης που διαθέτει: το Gemini, ένα πολυτροπικό μοντέλο σχεδιασμένο για δημιουργία και κατανόηση κειμένου, εικόνας και ήχου, και το Veo, το οποίο ειδικεύεται στη δημιουργία βίντεο.

Ο Hassabis εξήγησε πως ο απώτερος στόχος της εταιρείας είναι η δημιουργία ενός "καθολικού ψηφιακού βοηθού", ενός μοντέλου που να μπορεί να βοηθά ενεργά σε ρεαλιστικές καταστάσεις στον φυσικό κόσμο, χάρη στην κατανόηση πολλών μορφών πληροφορίας.

Για να αποκτήσει τέτοια ικανότητα, το Veo εκπαιδεύεται παρακολουθώντας μεγάλο όγκο βίντεο από το YouTube, γεγονός που του επιτρέπει να "κατανοεί" φυσικές έννοιες και αλληλεπιδράσεις, όπως η βαρύτητα ή η κίνηση. Παρόλο που η Google δηλώνει ότι εκπαιδεύει τα μοντέλα της "ενδεχομένως" σε "κάποιο" περιεχόμενο του YouTube, δημοσιεύματα αναφέρουν ότι έχουν ήδη ανανεωθεί οι όροι χρήσης ώστε να επιτρέπεται ευρύτερη χρήση του περιεχομένου για ΤΝ.

Η ανακοίνωση έρχεται σε μία περίοδο όπου άλλοι τεχνολογικοί κολοσσοί, όπως η OpenAI και η Amazon, επενδύουν επίσης σε μοντέλα με αντίστοιχες ικανότητες πολλαπλής εισόδου και εξόδου ("any-to-any" AI). Ο κοινός στόχος φαίνεται να είναι η ανάπτυξη μοντέλων που μπορούν να κατανοούν, να δημιουργούν και να απαντούν σε πολλές μορφές πληροφορίας ταυτόχρονα, ανοίγοντας τον δρόμο για νέα είδη διαδραστικής τεχνητής νοημοσύνης.

Sentiment Δείκτης:

Θετικό με τεχνολογική αισιοδοξία – Το άρθρο εκφράζει ενθουσιασμό για την πρόοδο της ΤΝ και τις δυνατότητες των πολυτροπικών μοντέλων, με υποκείμενη προβληματική γύρω από τη χρήση δεδομένων από το YouTube.

Πηγή: DeepMind CEO Demis Hassabis says Google will eventually combine its Gemini and Veo AI models

Ο CEO της DeepMind: H Google θα ενοποιήσει τα μοντέλα AI Gemini και Veo

Newsletter