Μετα την παρουσίαση του GPT-4o σειρα εχει η Google..

16/05/2024 | | |

Περίληψη άρθρου:

Το συνέδριο Google IO παρουσίασε το Veo, το τελευταίο μοντέλο παραγωγής βίντεο με έξοδο υψηλής ποιότητας και ευέλικτες δυνατότητες επεξεργασίας. Το Project Astra, ένα νέο έργο βοηθού τεχνητής νοημοσύνης, αναπτύσσεται από την Google, τροφοδοτείται από το Gemini και υποστηρίζει διάφορες μορφές πολυμέσων σε πραγματικό χρόνο. Το Gemini 1.5 Pro έλαβε ενημερώσεις, με δύο εκδόσεις που κυκλοφόρησαν: ένα ελαφρύ μοντέλο και ένα με εκτεταμένο μήκος πλαισίου 2M tokens. Επιπλέον, η Google παρουσίασε το Imagen 3 για εργασίες δημιουργίας εικόνων και τα Gemma 2 και PaliGemma ως νέα μοντέλα ανοικτού κώδικα. Στο συνέδριο επισημάνθηκαν διάφορες βελτιώσεις σε όλα τα προϊόντα και τις υπηρεσίες της Google. Η πρόσβαση στο Gemini API και το Google AI Studio έχει πλέον επεκταθεί σε παγκόσμιο επίπεδο.

Κύρια σημεία του άρθρου:

Veo: παρουσιάστηκε στο συνέδριο Google IO,ικανό να παράγει βίντεο υψηλής ποιότητας σε διάφορα στυλ με ανάλυση 1080p
Project Astra: Το νέο έργο της Google που επικεντρώνεται στη δημιουργία ενός μελλοντικού βοηθού τεχνητής νοημοσύνης που τροφοδοτείται από το Gemini
Gemini 1.5 Pro: Παρουσιάστηκαν δύο νέες εκδόσεις, η μία ελαφριά και γρήγορη (Gemini 1.5 Pro Flash), η άλλη με μήκος πλαισίου 2M token
Άλλες ανακοινώσεις: Το Imagen 3 παρουσιάστηκε ως το πιο ικανό μοντέλο δημιουργίας εικόνων της Google.
Πρόσβαση: Το Gemini API και το Google AI Studio είναι τώρα διαθέσιμα σε περισσότερες από 200 χώρες
Διαθεσιμότητα: Veo, Astra και η έκδοση 2M context του Gemini 1.5 Pro δεν είναι ακόμη διαθέσιμα, αλλά οι χρήστες μπορούν να εγγραφούν στη λίστα αναμονής για πρόσβαση

Αναλυτικά το άρθρο:

Μεταξύ άλλων ανακοινώσεων, το συνέδριο Google IO παρουσίασε:

Veo: το πιο ικανό μοντέλο παραγωγής βίντεο
Project Astra: το νέο τους έργο που επικεντρώνεται στη δημιουργία ενός μελλοντικού βοηθού τεχνητής νοημοσύνης
Ενημερώσεις για το Gemini 1.5 Pro: δύο νέες εκδόσεις του κορυφαίου μοντέλου, η μία είναι πιο ελαφριά, η άλλη με μήκος πλαισίου 2M token

Ας δούμε μία προς μία καθεμία από αυτές τις ανακοινώσεις.

Veo

Το Veo είναι το πιο ικανό μοντέλο παραγωγής βίντεο της Google DeepMind μέχρι σήμερα. Δημιουργεί βίντεο:

υψηλής ποιότητας με ανάλυση 1080p
που μπορούν να ξεπεράσουν το ένα λεπτό
σε ένα ευρύ φάσμα κινηματογραφικών και οπτικών στυλ

Το Veo μπορεί να λάβει ως είσοδο μια εικόνα ή ένα βίντεο μαζί με μια κειμενική προτροπή. Μπορεί να κινήσει την εικόνα ή να επεξεργαστεί το βίντεο όταν περάσει στην είσοδο.

Επιπλέον, υποστηρίζει επεξεργασία με μάσκα, επιτρέποντας αλλαγές σε συγκεκριμένες περιοχές του βίντεο, όταν προσθέτετε μια περιοχή μάσκας στο βίντεο και την προτροπή κειμένου.

Όσον αφορά τις τεχνικές λεπτομέρειες, η Google μοιράστηκε ότι πρόσθεσε περισσότερες λεπτομέρειες στις λεζάντες κάθε βίντεο στα δεδομένα εκπαίδευσης του Veo. Το μοντέλο χρησιμοποιεί υψηλής ποιότητας, συμπιεσμένες αναπαραστάσεις βίντεο (γνωστές και ως latents) για τη βελτίωση των επιδόσεων, της ταχύτητας δημιουργίας και της αποδοτικότητας.

Project Astra

Το Astra είναι το νέο έργο της Google που επικεντρώνεται στη δημιουργία ενός μελλοντικού βοηθού AI, πολύ παρόμοιο με το GPT-4o του OpenAI που παρουσιάστηκε ζωντανά χθες.
Ο νέος βοηθός της Google τροφοδοτείται από το Gemini και υποστηρίζει την ανταλλαγή ήχου, κειμένου, βίντεο και εικόνας σε πραγματικό χρόνο. Το έργο αυτό παρουσιάζεται ακόμα από την Google ως πρωτότυπο και οι δυνατότητες του Astra μοιράστηκαν μόνο μέσω προηχογραφημένων βίντεο, καθώς δεν είναι ακόμα διαθέσιμο σε όλους τους χρήστες.
Οι πρώτοι δοκιμαστές αναφέρουν μεγαλύτερη καθυστέρηση και λιγότερη συναισθηματική νοημοσύνη και τόνο για το Astra σε σύγκριση με το GPT-4o, αλλά ισχυρό κείμενο σε ομιλία και δυνητικά καλύτερη συνεχή υποστήριξη βίντεο σε μακρύ πλαίσιο.

Gemini 1.5 Pro

Η Google παρουσίασε δύο επαναλήψεις της ναυαρχίδας του μοντέλου Gemini 1.5 Pro.

Το Gemini 1.5 Pro Flash είναι η ελαφριά, γρήγορη και οικονομικά αποδοτική έκδοση του μοντέλου, που σημαίνει ότι είναι επίσης πολυτροπικό και έχει μήκος πλαισίου 1M token. Το κόστος απόδοσης είναι μικρό, με MMLU 78,9% σε σύγκριση με 81,9% για το αρχικό μοντέλο Gemini 1.5 Pro.
Το Gemini 1.5 Pro είχε διπλασιάσει το μήκος πλαισίου του σε 2M tokens. Το νέο μοντέλο είναι διαθέσιμο μέσω λίστας αναμονής για επιλεγμένους προγραμματιστές που κατασκευάζουν μέσω του API.

Other announcements

Η Google παρουσίασε επίσης:

Imagen 3, το πιο ικανό μοντέλο δημιουργίας εικόνων, το οποίο θα είναι διαθέσιμο σε πολλαπλές εκδόσεις, η κάθε μία βελτιστοποιημένη για διαφορετικούς τύπους εργασιών, από τη δημιουργία γρήγορων σκίτσων έως εικόνες υψηλής ανάλυσης.
Gemma 2 και PaliGemma, δύο νέα μοντέλα ανοιχτού κώδικα που προστέθηκαν στην οικογένεια Gemma. Το PaliGemma είναι το πρώτο μοντέλο ανοικτού κώδικα της Google με γλώσσα όρασης και είναι διαθέσιμο τώρα. Το Gemma 2 είναι ένα μοντέλο 27Β παραμέτρων που ξεπερνά την προηγούμενη έκδοση και θα είναι διαθέσιμο από τον Ιούνιο.

Οι δίωρες συνεδρίες ήταν πολύ πυκνές σε ενημερώσεις προϊόντων και ανακοινώσεις σε όλη τη στοίβα και τα προϊόντα της Google, συμπεριλαμβανομένων βελτιώσεων σε Search, Workspace, Photos, Android και άλλα.

Access

Το Gemini API και το Google AI Studio είναι πλέον διαθέσιμα σε 200+ χώρες, το Gemini 1.5 Flash κοστίζει 0,35 δολάρια ανά 1 εκατ. tokens, ενώ η προσωρινή αποθήκευση συμφραζομένων έρχεται τον επόμενο μήνα.
Τα Veo, Astra και η έκδοση 2M context του Gemini 1.5 Pro δεν είναι διαθέσιμα προς το παρόν, αλλά μπορείτε να εγγραφείτε στη λίστα αναμονής για να αποκτήσετε πρόσβαση.

Ωστόσο, το Gemini 1.5 Pro Flash είναι διαθέσιμο τώρα μέσω του API και το PaliGemma κυκλοφορεί ανοιχτά στο Kaggle.

Μετα την παρουσίαση του GPT-4o σειρα εχει η Google..

Newsletter