Η Google μόλις εγκαινίασε το Gemini, την πολυαναμενόμενη απάντησή της στο ChatGPT

07/12/2023 | |

Περίληψη άρθρου:

Η Google παρουσίασε το Gemini, το νέο μοντέλο τεχνητής νοημοσύνης που εκπαιδεύεται σε βίντεο, εικόνες, ήχο και κείμενο. Η εταιρεία ελπίζει ότι το Gemini θα την καθιερώσει ως ηγέτη στην τεχνητή νοημοσύνη. Το Gemini περιγράφεται ως ένα " εκ γενετής πολυτροπικό" μοντέλο και θα είναι διαθέσιμο στους προγραμματιστές μέσω του API του Google Cloud από τις 13 Δεκεμβρίου. Θα εισαχθεί σε διάφορα προϊόντα της Google τους επόμενους μήνες. Η Google αναφέρει ότι το Gemini ξεπερνά το GPT-3.5 του OpenAI σε συγκριτικά στοιχεία και η πιο ισχυρή έκδοση του Gemini, Ultra, θα κάνει το ντεμπούτο της το 2024, εν αναμονή περαιτέρω ελέγχων. Ωστόσο, οι επικριτές σημειώνουν την έλλειψη διαφάνειας όσον αφορά την εσωτερική λειτουργία των ιδιόκτητων μοντέλων όπως το Gemini.

Κύρια σημεία του άρθρου:

Η Google παρουσίασε το Gemini, το πιο "ικανό" μοντέλο τεχνητής νοημοσύνης που έχει σχεδιάσει μέχρι σήμερα, το οποίο είναι σχεδιασμένο να λειτουργεί με κείμενο, εικόνες και βίντεο.
Το Gemini εκπαιδεύτηκε σε βίντεο, εικόνες, ήχο και κείμενο, καθιστώντας το ένα "εγγενώς πολυτροπικό" μοντέλο.
Μια αρχική έκδοση του Gemini αναπτύσσεται στο chatbot Bard της Google για το αγγλικό γλωσσικό περιβάλλον.
Το μοντέλο θα διατεθεί στους προγραμματιστές μέσω του API του Google Cloud από τις 13 Δεκεμβρίου.
Το Gemini θα εισαχθεί σε άλλα προϊόντα της Google, όπως η αναζήτηση, οι διαφημίσεις και το Chrome, τους επόμενους μήνες.
Η ισχυρότερη έκδοση του Gemini, Ultra, πρόκειται να κάνει το ντεμπούτο της το 2024, εν αναμονή των ελέγχων εμπιστοσύνης και ασφάλειας.

Αναλυτικά το άρθρο:

Η Google λέει ότι το Gemini, που λανσάρεται σήμερα μέσα στο chatbot Bard, είναι το πιο "ικανό" μοντέλο τεχνητής νοημοσύνης της. Εκπαιδεύτηκε σε βίντεο, εικόνες και ήχο καθώς και σε κείμενο.

Η ΑΥΞΑΝΟΜΕΝΗ ΟΜΙΛΙΑ για την ανάπτυξη της τεχνητής νοημοσύνης με δυνητικά επικίνδυνη ταχύτητα δύσκολα επιβραδύνει τα πράγματα. Ένα χρόνο αφότου η OpenAI ξεκίνησε το ChatGPT και πυροδότησε μια νέα κούρσα για την ανάπτυξη της τεχνολογίας AI, η Google αποκάλυψε σήμερα ένα έργο AI που αποσκοπεί στην αποκατάσταση του γίγαντα της αναζήτησης ως παγκόσμιου ηγέτη στην AI.

Ο Gemini, ένας νέος τύπος μοντέλου τεχνητής νοημοσύνης που μπορεί να δουλέψει με κείμενο, εικόνες και βίντεο, θα μπορούσε να είναι ο πιο σημαντικός αλγόριθμος στην ιστορία της Google μετά το PageRank, το οποίο ανέδειξε τη μηχανή αναζήτησης στη δημόσια ψυχή και δημιούργησε έναν εταιρικό γίγαντα.

Μια αρχική έκδοση του Gemini αρχίζει να κυκλοφορεί σήμερα μέσα στο chatbot Bard της Google για το αγγλικό γλωσσικό περιβάλλον. Θα είναι διαθέσιμο σε περισσότερες από 170 χώρες και εδάφη. Η Google αναφέρει ότι το Gemini θα είναι διαθέσιμο στους προγραμματιστές μέσω του API του Google Cloud από τις 13 Δεκεμβρίου. Μια πιο συμπαγής έκδοση του μοντέλου θα τροφοδοτεί από σήμερα τις προτεινόμενες απαντήσεις μηνυμάτων από το πληκτρολόγιο των smartphones Pixel 8. Το Gemini θα εισαχθεί σε άλλα προϊόντα της Google, όπως η γενεσιουργός αναζήτηση, οι διαφημίσεις και το Chrome, τους "επόμενους μήνες", λέει η εταιρεία. Η πιο ισχυρή έκδοση Gemini από όλες θα κάνει το ντεμπούτο της το 2024, εν αναμονή "εκτεταμένων ελέγχων εμπιστοσύνης και ασφάλειας", λέει η Google.

"Είναι μια μεγάλη στιγμή για εμάς", δήλωσε ο Demis Hassabis, CEO της Google DeepMind, στο WIRED πριν από τη σημερινή ανακοίνωση. "Είμαστε πραγματικά ενθουσιασμένοι από τις επιδόσεις του και είμαστε επίσης ενθουσιασμένοι να δούμε τι θα κάνουν οι άνθρωποι χτίζοντας πάνω σε αυτό".

Το Gemini περιγράφεται από την Google ως "εγγενώς πολυτροπικό", επειδή εκπαιδεύτηκε σε εικόνες, βίντεο και ήχο και όχι μόνο σε κείμενο, όπως τα μεγάλα γλωσσικά μοντέλα που βρίσκονται στην καρδιά της πρόσφατης έκρηξης της γεννητικής τεχνητής νοημοσύνης.

"Είναι το μεγαλύτερο και πιο ικανό μοντέλο μας- είναι επίσης το πιο γενικό", δήλωσε ο Eli Collins, αντιπρόεδρος του τμήματος προϊόντων της Google DeepMind, σε συνέντευξη Τύπου για την ανακοίνωση του Gemini.

Η Google αναφέρει ότι υπάρχουν τρεις εκδόσεις του Gemini: Ultra, η μεγαλύτερη και πιο ικανή, Nano, η οποία είναι σημαντικά μικρότερη και πιο αποδοτική, και Pro, μεσαίου μεγέθους και μεσαίων δυνατοτήτων.

Από σήμερα, το Bard της Google, ένα chatbot παρόμοιο με το ChatGPT, θα τροφοδοτείται από το Gemini Pro, μια αλλαγή που σύμφωνα με την εταιρεία θα το καταστήσει ικανό για πιο προηγμένη λογική και σχεδιασμό. Σήμερα, μια εξειδικευμένη έκδοση του Gemini Pro αναδιπλώνεται σε μια νέα έκδοση του AlphaCode, ενός "ερευνητικού προϊόντος" γεννητικού εργαλείου κωδικοποίησης από την Google DeepMind. Η ισχυρότερη έκδοση του Gemini, το Ultra, θα τοποθετηθεί μέσα στο Bard και θα διατεθεί μέσω ενός cloud API το 2024.

Ο Sissie Hsiao, αντιπρόεδρος της Google και γενικός διευθυντής του Bard, λέει ότι οι πολυτροπικές δυνατότητες του μοντέλου έδωσαν στο Bard νέες δεξιότητες και το έκαναν καλύτερο σε εργασίες όπως η περίληψη περιεχομένου, ο καταιγισμός ιδεών, η συγγραφή και ο προγραμματισμός. "Αυτές είναι οι μεγαλύτερες μεμονωμένες ποιοτικές βελτιώσεις του Bard από τότε που ξεκινήσαμε", λέει ο Hsiao.

Νέο όραμα

Η Google έδειξε διάφορα demo που απεικονίζουν την ικανότητα του Gemini να χειρίζεται προβλήματα που αφορούν οπτικές πληροφορίες. Σε ένα από αυτά είδαμε το μοντέλο τεχνητής νοημοσύνης να ανταποκρίνεται σε ένα βίντεο στο οποίο κάποιος σχεδίαζε εικόνες, δημιουργούσε απλούς γρίφους και ζητούσε ιδέες για παιχνίδια που αφορούσαν έναν χάρτη του κόσμου. Δύο ερευνητές της Google έδειξαν επίσης πώς το Gemini μπορεί να βοηθήσει στην επιστημονική έρευνα, απαντώντας σε ερωτήσεις σχετικά με μια ερευνητική εργασία που περιείχε γραφήματα και εξισώσεις.

Ο Collins λέει ότι το Gemini Pro, το μοντέλο που κυκλοφορεί αυτή την εβδομάδα, ξεπέρασε το προηγούμενο μοντέλο που αρχικά τροφοδοτούσε το ChatGPT, το οποίο ονομάζεται GPT-3.5, σε έξι από τα οκτώ ευρέως χρησιμοποιούμενα benchmarks για τη δοκιμή της εξυπνάδας του λογισμικού AI.

Η Google λέει ότι το Gemini Ultra, το μοντέλο που θα κάνει το ντεμπούτο του το επόμενο έτος, σημειώνει 90 τοις εκατό, υψηλότερη βαθμολογία από οποιοδήποτε άλλο μοντέλο, συμπεριλαμβανομένου του GPT-4, στο Massive Multitask Language Understanding (MMLU) benchmark, το οποίο αναπτύχθηκε από ακαδημαϊκούς ερευνητές για τη δοκιμή γλωσσικών μοντέλων σε ερωτήσεις σχετικά με θέματα όπως τα μαθηματικά, η ιστορία των ΗΠΑ και το δίκαιο.

"Το Gemini είναι κορυφαίο σε ένα ευρύ φάσμα κριτηρίων αναφοράς -30 από τα 32 που χρησιμοποιούνται ευρέως στην ερευνητική κοινότητα της μηχανικής μάθησης", δήλωσε ο Collins. "Και έτσι το βλέπουμε να θέτει όρια σε όλους τους τομείς".

Το GPT-4 της OpenAI, το οποίο επί του παρόντος τροφοδοτεί την πιο ικανή έκδοση του ChatGPT, ξεσήκωσε τον κόσμο όταν έκανε το ντεμπούτο του τον Μάρτιο του τρέχοντος έτους. Επίσης, ώθησε ορισμένους ερευνητές να αναθεωρήσουν τις προσδοκίες τους για το πότε η τεχνητή νοημοσύνη θα συναγωνιζόταν το εύρος της ανθρώπινης νοημοσύνης. Η OpenAI έχει περιγράψει το GPT-4 ως πολυτροπικό και τον Σεπτέμβριο αναβάθμισε το ChatGPT για να επεξεργάζεται εικόνες και ήχο, αλλά δεν έχει πει αν το βασικό μοντέλο GPT-4 εκπαιδεύτηκε απευθείας σε περισσότερα από κείμενα. Το ChatGPT μπορεί επίσης να παράγει εικόνες με τη βοήθεια ενός άλλου μοντέλου της OpenAI που ονομάζεται DALL-E 2.

Η Google δημοσίευσε σήμερα μια τεχνική έκθεση που παρέχει ορισμένες λεπτομέρειες για την εσωτερική λειτουργία του Gemini. Δεν αποκαλύπτει τις λεπτομέρειες της αρχιτεκτονικής, το μέγεθος του μοντέλου AI ή τη συλλογή δεδομένων που χρησιμοποιήθηκαν για την εκπαίδευσή του.

Η χρονοβόρα και δαπανηρή διαδικασία εκπαίδευσης μεγάλων μοντέλων τεχνητής νοημοσύνης σε ισχυρά τσιπ υπολογιστών σημαίνει ότι το Gemini πιθανότατα κόστισε εκατοντάδες εκατομμύρια δολάρια, λένε οι ειδικοί σε θέματα τεχνητής νοημοσύνης. Η Google αναμένεται να έχει αναπτύξει ένα νέο σχεδιασμό για το μοντέλο και ένα νέο μείγμα δεδομένων εκπαίδευσης. Η εταιρεία έχει επιταχύνει την κυκλοφορία της τεχνολογίας AI και έχει ρίξει πόρους σε διάφορες νέες προσπάθειες AI σε μια προσπάθεια να πνίξει τον θόρυβο γύρω από το ChatGPT της OpenAI και να αποκατασταθεί ως η κορυφαία εταιρεία AI στον κόσμο.

"Βρισκόμαστε σε ένα είδος κούρσας εξοπλισμών "tit-for-tat"", λέει ο Oren Etzioni, ομότιμος καθηγητής στο Πανεπιστήμιο της Ουάσινγκτον και πρώην διευθύνων σύμβουλος του Ινστιτούτου Allen για την Τεχνητή Νοημοσύνη. "Δεν υπάρχει κανένας λόγος να μην πιστεύουμε ότι ο Gemini τα καταφέρνει καλύτερα από τον GPT-4 σε αυτά τα benchmarks, αλλά η επόμενη έκδοση, ο GPT-5, θα τα καταφέρει καλύτερα".

Ο Etzioni λέει ότι γιγαντιαία μοντέλα όπως το Gemini πιστεύεται ότι κοστίζουν εκατοντάδες εκατομμύρια δολάρια για να κατασκευαστούν, αλλά το τελικό βραβείο θα μπορούσε να είναι δισεκατομμύρια ή και τρισεκατομμύρια σε έσοδα για την εταιρεία που κυριαρχεί στην παροχή τεχνητής νοημοσύνης μέσω του cloud. "Πρόκειται για έναν πόλεμο που δεν θα πάρει κανέναν φυλακισμένο και πρέπει να κερδηθεί", λέει.

Αντεπίθεση

Η Google εφηύρε ορισμένες βασικές τεχνικές που χρησιμοποιούνται στο ChatGPT, αλλά άργησε να κυκλοφορήσει τη δική της τεχνολογία chatbot πριν από τη δική της κυκλοφορία του OpenAI πριν από περίπου ένα χρόνο, εν μέρει λόγω της ανησυχίας ότι θα μπορούσε να πει δυσάρεστα ή ακόμη και επικίνδυνα πράγματα. Η εταιρεία λέει ότι έχει κάνει τις πιο ολοκληρωμένες δοκιμές ασφαλείας μέχρι σήμερα με το Gemini, λόγω των πιο γενικών δυνατοτήτων του μοντέλου.

Το Gemini δοκιμάστηκε χρησιμοποιώντας ένα σύνολο δεδομένων με προτροπές τοξικών μοντέλων που αναπτύχθηκαν από το Ινστιτούτο Allen για την τεχνητή νοημοσύνη. Ο Collins λέει ότι η εταιρεία συνεργάζεται με εξωτερικούς ερευνητές για την περαιτέρω "κόκκινη ομάδα" του μοντέλου, πιέζοντας το να συμπεριφέρεται άσχημα και ανακαλύπτοντας τα αδύνατα σημεία του. Χωρίς να δώσει λεπτομέρειες, ο Collins δήλωσε ότι η μεγαλύτερη ισχύς του Gemini απαιτεί από την Google να "ανεβάσει τον πήχη στο είδος του ελέγχου ποιότητας και ασφάλειας που πρέπει να κάνουμε".

Πολλά εξαρτώνται από τον νέο αλγόριθμο για την Google και τη μητρική της εταιρεία Alphabet, η οποία δημιούργησε τρομερές ερευνητικές δυνατότητες για την τεχνητή νοημοσύνη την τελευταία δεκαετία. Με εκατομμύρια προγραμματιστές να χτίζουν πάνω στους αλγορίθμους του OpenAI και τη Microsoft να χρησιμοποιεί την τεχνολογία για να προσθέσει νέα χαρακτηριστικά στα λειτουργικά της συστήματα και στο λογισμικό παραγωγικότητας, η Google έχει αναγκαστεί να επανεξετάσει την εστίασή της όσο ποτέ άλλοτε.

Η εταιρεία αναζήτησης ανακοίνωσε για πρώτη φορά ότι εργαζόταν πάνω στο Gemini στο συνέδριο I/O τον Μάιο, καθώς η εταιρεία προσπαθούσε να προσθέσει δημιουργική τεχνητή νοημοσύνη στην αναζήτηση για να αποτρέψει τη δημοτικότητα του ChatGPT και την απειλή ότι η τεχνολογία του OpenAI θα μπορούσε να τροφοδοτήσει τη μηχανή αναζήτησης Bing της Microsoft. Το εκτιμώμενο μερίδιο της Google στην παγκόσμια αγορά αναζήτησης εξακολουθεί να υπερβαίνει το 90%, αλλά η παρουσίαση του Gemini φαίνεται να δείχνει ότι η εταιρεία συνεχίζει να αυξάνει την αντίδρασή της στο ChatGPT.

Το Google DeepMind, το τμήμα που ηγήθηκε της ανάπτυξης του Gemini, δημιουργήθηκε στο πλαίσιο αυτής της αντίδρασης με τη συγχώνευση της κύριας ερευνητικής ομάδας τεχνητής νοημοσύνης της Google, Google Brain, με τη μονάδα τεχνητής νοημοσύνης DeepMind, που εδρεύει στο Λονδίνο, τον Απρίλιο. Όμως, το έργο Gemini αξιοποίησε ερευνητές και μηχανικούς από όλη την Google τους τελευταίους μήνες. Χρησιμοποίησε μια πρόσφατα αναβαθμισμένη έκδοση των προσαρμοσμένων τσιπ πυριτίου της Google για την εκπαίδευση μοντέλων AI, γνωστά ως Tensor Processing Units (TPUs).

Το όνομα Gemini δόθηκε για να σηματοδοτήσει την αδελφοποίηση των δύο μεγάλων εργαστηρίων τεχνητής νοημοσύνης της Google και ως αναφορά στο Project Gemini της NASA, το οποίο άνοιξε το δρόμο για τις προσεδαφίσεις στο φεγγάρι του προγράμματος Apollo.

Ο Alexei Efros, καθηγητής στο UC Berkeley που ειδικεύεται στις οπτικές δυνατότητες της τεχνητής νοημοσύνης, λέει ότι η γενική προσέγγιση της Google με το Gemini φαίνεται πολλά υποσχόμενη. "Οτιδήποτε χρησιμοποιεί άλλες λειτουργίες είναι σίγουρα ένα βήμα προς τη σωστή κατεύθυνση", λέει.

Ο Efros υποψιάζεται ότι το Gemini θα εξακολουθήσει, όπως και το GPT-4, να παρουσιάζει σημαντικούς περιορισμούς στην ικανότητά του να κατανοεί τις πολυπλοκότητες του πραγματικού κόσμου. Αλλά ο ίδιος και άλλοι ερευνητές είναι απίθανο να μάθουν όλα όσα θα ήθελαν για το δημιούργημα της Google. "Αυτό είναι το πρόβλημα με όλα αυτά τα ιδιόκτητα μοντέλα", λέει ο Efros. "Δεν ξέρουμε πραγματικά τι υπάρχει στο εσωτερικό τους".

Hands-on with Gemini: Interacting with multimodal AI

Πηγή: Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT