Google Gemini 2: Νέοι Προσωπικοί Βοηθοί AI, «Πράκτορες» και Πρωτότυπος Ψηφιακός Σύμβουλος

13/12/2024 | | |

Περίληψη:

Η Google παρουσίασε το Gemini 2, τη νέα γενιά του κορυφαίου μοντέλου Τεχνητής Νοημοσύνης της, το οποίο υπόσχεται μια πιο εξελιγμένη μορφή ψηφιακού βοηθού. Το Gemini 2 είναι ικανό να κατανοεί πολυμεσικά δεδομένα (εικόνα, ήχο, βίντεο), να συνομιλεί πιο φυσικά, να εκτελεί ενέργειες στο διαδίκτυο και στους υπολογιστές των χρηστών, και να αναγνωρίζει τον φυσικό κόσμο μέσω κάμερας.

Επιπλέον, η Google παρουσίασε εξειδικευμένους «πράκτορες» για κώδικα και ανάλυση δεδομένων, καθώς και ένα πειραματικό εργαλείο, το Project Mariner, που μπορεί να πλοηγείται στο διαδίκτυο για λογαριασμό του χρήστη.

Ένα άλλο πρωτότυπο, το Astra, επιτρέπει στο Gemini 2 να αναλύει το περιβάλλον μέσω κάμερας, να παρέχει φωνητικές πληροφορίες, αλλά και να θυμάται ενδιαφέροντα και προτιμήσεις του χρήστη, προσφέροντας πιθανές μελλοντικές ευκαιρίες για πιο εξατομικευμένες συστάσεις. Παρά τις εντυπωσιακές δυνατότητες, η εταιρεία αναγνωρίζει τις προκλήσεις γύρω από την ιδιωτικότητα, την ασφάλεια και την αξιοπιστία.

Κύρια Σημεία:

Gemini 2 AI Μοντέλο: Η νέα έκδοση μπορεί να κατανοεί πολυμεσικά δεδομένα, να συνομιλεί φυσικά και να εκτελεί αυτόνομα ενέργειες.
AI Πράκτορες: Δύο εξειδικευμένοι πράκτορες για κώδικα και ανάλυση δεδομένων μπορούν να αναλάβουν πιο σύνθετες εργασίες από απλή αυτόματη συμπλήρωση κώδικα.
Project Mariner: Ένα πειραματικό Chrome extension που επιτρέπει στο Gemini 2 να πλοηγείται στο web για λογαριασμό του χρήστη, όπως να προσθέτει είδη σε καλάθι αγορών σε online καταστήματα.
Astra: Ένα πρωτότυπο που επιτρέπει στο Gemini 2 να αναγνωρίζει αντικείμενα μέσω κάμερας, να δίνει πληροφορίες με ανθρώπινη φωνή και να μαθαίνει τα γούστα του χρήστη.
Μελλοντική Προοπτική: Η Google στοχεύει σε μια «γενική» νοημοσύνη, με προσωπικούς βοηθούς AI που θα οργανώνουν, αναλύουν και προτείνουν, πιθανόν διαμορφώνοντας νέους τρόπους αλληλεπίδρασης μεταξύ ανθρώπων και τεχνολογίας.
Προκλήσεις: Η αξιοπιστία, η ιδιωτικότητα, η ασφάλεια και η αποτροπή λανθασμένων ή κακόβουλων ενεργειών παραμένουν ανοιχτά ζητήματα.

Αναλυτικά το άρθρο:

Η Google κάποτε ήθελε απλώς να οργανώσει τις πληροφορίες του κόσμου. Τώρα δείχνει πιο αποφασισμένη να διοχετεύσει αυτές τις πληροφορίες σε αλγορίθμους τεχνητής νοημοσύνης, που γίνονται υπάκουοι, πανταχού παρόντες και ολοένα πιο ισχυροί εικονικοί βοηθοί.

Σήμερα, η Google ανακοίνωσε το Gemini 2, μια νέα έκδοση του κορυφαίου μοντέλου τεχνητής νοημοσύνης της, το οποίο έχει εκπαιδευτεί ώστε να σχεδιάζει και να εκτελεί εργασίες στους υπολογιστές και στο διαδίκτυο του χρήστη, να συνομιλεί σαν άνθρωπος και να αντιλαμβάνεται τον φυσικό κόσμο ως ένας ψηφιακός «μπάτλερ».

«Ονειρεύομαι εδώ και πολύ καιρό έναν παγκόσμιο ψηφιακό βοηθό, ως ένα βήμα προς την τεχνητή γενική νοημοσύνη», δήλωσε ο Ντέμις Χασάμπις, διευθύνων σύμβουλος της Google DeepMind, στο WIRED πριν από τη σημερινή ανακοίνωση, υπαινισσόμενος την ιδέα της τεχνητής νοημοσύνης που κάποια στιγμή θα μπορεί να κάνει οτιδήποτε μπορεί να κάνει ένας ανθρώπινος εγκέφαλος.

Το Gemini 2 είναι κυρίως ένα ακόμα βήμα προς την άνοδο της νοημοσύνης της AI, όπως μετράται από δοκιμές και κριτήρια αξιολόγησης. Το μοντέλο έχει επίσης βελτιωμένες “πολυτροπικές” ικανότητες, που σημαίνει ότι μπορεί να αναλύει βίντεο και ήχο, όπως επίσης να συνομιλεί με φωνή. Επιπλέον, έχει εκπαιδευτεί στο να σχεδιάζει και να εκτελεί ενέργειες στους υπολογιστές.

«Κατά τον τελευταίο χρόνο, επενδύουμε στην ανάπτυξη πιο "δραστήριων" (agentic) μοντέλων», δήλωσε ο Σούνταρ Πιτσάι, διευθύνων σύμβουλος της Google, σε σημερινή ανακοίνωση. Αυτά τα μοντέλα, πρόσθεσε, «μπορούν να κατανοήσουν περισσότερα για τον κόσμο γύρω σας, να σκεφτούν πολλά βήματα μπροστά και να αναλάβουν δράση για λογαριασμό σας, υπό την επίβλεψή σας».

Οι τεχνολογικές εταιρείες πιστεύουν ότι οι λεγόμενοι "πράκτορες" AI θα μπορούσαν να είναι το επόμενο μεγάλο άλμα για την τεχνολογία, με τα chatbots να αναλαμβάνουν σταδιακά εργασίες για τους χρήστες. Αν το πετύχουν, οι AI πράκτορες θα μπορούσαν να φέρουν επανάσταση στην προσωπική πληροφορική, αναλαμβάνοντας συστηματικά κρατήσεις πτήσεων, ρυθμίζοντας συναντήσεις και αναλύοντας οργανωτικά έγγραφα. Όμως, η επίτευξη του στόχου να ακολουθεί η AI ανοικτού τύπου εντολές με αξιοπιστία παραμένει πρόκληση, με τον κίνδυνο ότι τα σφάλματα μπορεί να οδηγήσουν σε δαπανηρά και δύσκολα αναστρέψιμα λάθη.

Παρ’ όλα αυτά, η Google θεωρεί ότι προχωρά στη σωστή κατεύθυνση και παρουσιάζει δύο εξειδικευμένους πράκτορες AI για να δείξει τις δυνατότητες του Gemini 2: ένας για προγραμματισμό κώδικα και ένας για ανάλυση δεδομένων. Αντί απλώς να συμπληρώνουν αυτόματα μέρη κώδικα, όπως κάνουν τα τρέχοντα εργαλεία AI, αυτοί οι πράκτορες μπορούν να αναλαμβάνουν πιο σύνθετη εργασία, όπως να ανεβάζουν κώδικα σε αποθετήρια ή να συνδυάζουν δεδομένα για να επιτρέψουν αναλύσεις.

Η εταιρεία παρουσιάζει επίσης το Project Mariner, μια πειραματική επέκταση για τον Chrome που μπορεί να αναλάβει την περιήγηση στο διαδίκτυο για να εκτελεί χρήσιμες εργασίες για τους χρήστες. Το WIRED παρακολούθησε μια ζωντανή επίδειξη στα κεντρικά της Google DeepMind στο Λονδίνο. Ο πράκτορας κλήθηκε να βοηθήσει στον προγραμματισμό ενός γεύματος, πλοηγήθηκε στον ιστότοπο της αλυσίδας σούπερ μάρκετ Sainsbury’s, συνδέθηκε στον λογαριασμό του χρήστη και πρόσθεσε σχετικά προϊόντα στο καλάθι αγορών. Όταν κάποια προϊόντα δεν ήταν διαθέσιμα, το μοντέλο επέλεξε κατάλληλα υποκατάστατα με βάση τις δικές του μαγειρικές γνώσεις. Η Google αρνήθηκε να εκτελέσει άλλες εργασίες, υποδηλώνοντας ότι το έργο βρίσκεται ακόμη σε αρχικό στάδιο.

«Το Mariner είναι η διερεύνησή μας, προς το παρόν ένα ερευνητικό πρωτότυπο, για το πώς μπορεί κανείς να επανασχεδιάσει το περιβάλλον χρήστη με χρήση AI», λέει ο Χασάμπις.

Η Google λάνσαρε το Gemini τον Δεκέμβριο του 2023 ως μέρος μιας προσπάθειας να καλύψει την απόσταση από την OpenAI, την startup πίσω από το εξαιρετικά δημοφιλές chatbot ChatGPT. Παρά τις τεράστιες επενδύσεις της στην AI και τις βασικές ερευνητικές καινοτομίες, η Google είδε την OpenAI να εκθειάζεται ως ο νέος ηγέτης στην AI, με το chatbot της να προτείνεται ίσως ως καλύτερος τρόπος αναζήτησης στο διαδίκτυο. Με τα μοντέλα Gemini, η Google τώρα προσφέρει ένα chatbot εξίσου ικανό με το ChatGPT. Έχει επίσης προσθέσει γενετική AI στην αναζήτηση και σε άλλα προϊόντα της.

Όταν ο Χασάμπις αποκάλυψε για πρώτη φορά το Gemini τον Δεκέμβριο του 2023, είπε στο WIRED ότι ο τρόπος με τον οποίο είχε εκπαιδευτεί να κατανοεί ήχο και βίντεο θα αποδεικνυόταν τελικά μετασχηματιστικός.

Σήμερα, η Google προσέφερε επίσης μια ματιά στο πώς αυτό μπορεί να εξελιχθεί, με μια νέα έκδοση ενός πειραματικού πρότζεκτ που ονομάζεται Astra. Αυτό επιτρέπει στο Gemini 2 να κατανοεί το περιβάλλον του, όπως το βλέπει η κάμερα ενός smartphone ή κάποιας άλλης συσκευής, και να συνομιλεί φυσικά με ανθρώπινη φωνή για όσα βλέπει.

Το WIRED δοκίμασε το Gemini 2 στα γραφεία της Google DeepMind και το βρήκε εντυπωσιακό ως ένα νέο είδος προσωπικού βοηθού. Σε ένα δωμάτιο διακοσμημένο ως μπαρ, το Gemini 2 αξιολόγησε γρήγορα διάφορα μπουκάλια κρασιού στο οπτικό πεδίο, παρέχοντας γεωγραφικές πληροφορίες, λεπτομέρειες γεύσης και τιμές από το διαδίκτυο.

«Ένα από τα πράγματα που θέλω από το Astra είναι να γίνει το απόλυτο σύστημα προτάσεων», λέει ο Χασάμπις. «Θα μπορούσε να είναι πολύ συναρπαστικό. Μπορεί να υπάρχουν συνδέσεις μεταξύ των βιβλίων που σου αρέσει να διαβάζεις και των τροφίμων που σου αρέσει να τρως. Πιθανότατα υπάρχουν, απλώς δεν τις έχουμε ανακαλύψει ακόμη».

Μέσω του Astra, το Gemini 2 μπορεί όχι μόνο να αναζητήσει πληροφορίες σχετικές με το περιβάλλον του χρήστη στο διαδίκτυο και να χρησιμοποιήσει το Google Lens και τους Χάρτες, αλλά και να θυμάται όσα έχει δει και ακούσει —αν και η Google λέει ότι οι χρήστες θα μπορούν να διαγράψουν δεδομένα— παρέχοντάς του την ικανότητα να μαθαίνει τις προτιμήσεις και τα ενδιαφέροντα του χρήστη.

Σε μια στημένη γκαλερί, το Gemini 2 προσέφερε πληθώρα ιστορικών πληροφοριών για τους πίνακες στους τοίχους. Το μοντέλο διάβαζε γρήγορα αρκετά βιβλία καθώς το WIRED γύριζε σελίδες, μεταφράζοντας στιγμιαία ποίηση από τα ισπανικά στα αγγλικά και περιγράφοντας επαναλαμβανόμενα θέματα.

«Υπάρχουν προφανείς επιχειρηματικές ευκαιρίες για διαφημίσεις ή προτάσεις», λέει ο Χασάμπις, όταν ρωτήθηκε αν εταιρείες θα μπορούσαν να πληρώνουν για να προβάλλονται τα προϊόντα τους μέσω του Astra.

Αν και οι επιδείξεις ήταν προσεκτικά επιλεγμένες και το Gemini 2 αναπόφευκτα θα κάνει λάθη στην πραγματική χρήση, το μοντέλο αντιστάθηκε λογικά σε προσπάθειες να μπερδευτεί. Προσαρμόστηκε σε διακοπές της συνομιλίας και καθώς το WIRED άλλαζε ξαφνικά το οπτικό πεδίο του τηλεφώνου, αυτοσχεδίαζε όπως θα έκανε ένας άνθρωπος.

Σε μια στιγμή, ο συντάκτης έδειξε στο Gemini 2 ένα iPhone και είπε ότι ήταν κλεμμένο. Το Gemini 2 είπε ότι είναι λάθος να κλέβεις και ότι το τηλέφωνο πρέπει να επιστραφεί. Όταν πιέστηκε, ωστόσο, παραδέχτηκε ότι θα ήταν εντάξει να χρησιμοποιηθεί η συσκευή για μια επείγουσα κλήση.

Ο Χασάμπις αναγνωρίζει ότι η είσοδος της AI στον φυσικό κόσμο μπορεί να οδηγήσει σε απρόβλεπτες συμπεριφορές. «Νομίζω ότι πρέπει να μάθουμε πώς οι άνθρωποι θα χρησιμοποιήσουν αυτά τα συστήματα», λέει. «Τι θα βρουν χρήσιμο, αλλά επίσης πρέπει να σκεφτούμε σοβαρά θέματα ιδιωτικότητας και ασφάλειας από την αρχή».

Πηγή: Google Reveals Gemini 2, AI Agents, and a Prototype Personal Assistant

Google Gemini 2: Νέοι Προσωπικοί Βοηθοί AI, «Πράκτορες» και Πρωτότυπος Ψηφιακός Σύμβουλος

Newsletter