Περίληψη:

Η Google DeepMind ανακοίνωσε ότι το μοντέλο Gemini με Deep Think πέτυχε επίσημα επιδόσεις χρυσού μεταλλίου στη Διεθνή Μαθηματική Ολυμπιάδα (IMO), καταφέρνοντας να λύσει 5 από τα 6 προβλήματα.
Αν και η OpenAI είχε αναφέρει παρόμοια επίδοση, μόνο η Google συνεργάστηκε με τους διοργανωτές της IMO και αξιολογήθηκε με τους ίδιους κανόνες που ισχύουν για τους μαθητές.
Παράλληλα, η Alibaba διεκδικεί την κορυφή του open‑source με το Qwen3, ενώ νέα μοντέλα εμπνευσμένα από τη δομή του ανθρώπινου εγκεφάλου (όπως το HRM) σηματοδοτούν το επόμενο στάδιο της τεχνητής νοημοσύνης.

 

 Κύρια σημεία:

 Google DeepMind – Gemini & IMO:

  • Το μοντέλο Gemini με Deep Think πέτυχε 35/42 βαθμούς σε IMO test υπό κανονικές συνθήκες 4,5 ωρών.
  • Λύθηκαν προβλήματα σε άλγεβρα, γεωμετρία, θεωρία αριθμών και συνδυαστική.
  • Τα αποτελέσματα επιβεβαιώθηκαν επισήμως από τους IMO διοργανωτές.
  • Η OpenAI δήλωσε αντίστοιχη επίδοση, αλλά δεν συμμετείχε επίσημα και η αξιολόγηση έγινε από πρώην μεταλλιούχους.

️ Alibaba – Qwen3 open-source ηγεσία:

  • Το Qwen3 (non-thinking) ξεπερνά το Kimi K2 σε όλα τα benchmarks.
  • Ενεργοποιεί 22B από 235B παραμέτρους, με παράθυρο context 256K.
  • Ανταγωνίζεται Claude Opus 4 και GPT-4o-0327.
  • Διαθέσιμο δωρεάν και ανοιχτού κώδικα μέσω του Qwen Chat.

 Φτιάξε AI πράκτορα για e-mails:

  • Tutorial για χρήση του Grok 4 της xAI και πλατφόρμας n8n για αυτοματοποίηση σύνταξης email.
  • Περιλαμβάνει χρήση nodes για μνήμη, συστήματα Gmail και prompts.

 Sapient Intelligence – Hierarchical Reasoning Model (HRM):

  • Εμπνευσμένο από τον εγκέφαλο, με ιεραρχική επεξεργασία, χρονικό διαχωρισμό και επανασύνδεση.
  • Ανώτερο από Claude 3.7 και DeepSeek σε ARC-AGI και δύσκολα puzzles με μόλις 27M παραμέτρους.
  • Δεν χρειάζεται CoT ή massive pretraining – ιδανικό για low-data εφαρμογές (όπως σπάνιες ασθένειες ή κλιματικές προβλέψεις).

 

 Αναλυτικά:

Η Google DeepMind ανακοίνωσε ότι το μοντέλο Gemini με Deep Think πέτυχε επίσημη απόδοση χρυσού μεταλλίου στον Διεθνή Μαθηματικό Ολυμπιακό του 2025, λύνοντας 5 από τα 6 προβλήματα και συγκεντρώνοντας 35/42 βαθμούς. Η αξιολόγηση έγινε από τους ίδιους αξιολογητές της IMO που βαθμολογούν τους διαγωνιζόμενους μαθητές. Η περσινή συμμετοχή της Google είχε καταλήξει σε αργυρό μετάλλιο, ενώ φέτος η προσέγγιση ήταν end-to-end σε φυσική γλώσσα, χωρίς ειδικές μεταφράσεις.

Η OpenAI ισχυρίστηκε αντίστοιχη επίδοση, αλλά χωρίς επίσημη συνεργασία με την IMO και με grading από πρώην μεταλλιούχους — κάτι που αφήνει περιθώριο αμφισβήτησης. Το γεγονός ότι δύο κορυφαία AI labs πετυχαίνουν επιδόσεις επιπέδου Ολυμπιάδας δείχνει ότι η μαθηματική υπερνοημοσύνη δεν είναι μακριά.

Την ίδια ώρα, η Alibaba παρουσίασε το Qwen3, ένα ισχυρό open-source μοντέλο που ξεπερνά το επίσης κινεζικό Kimi K2, φτάνοντας επιδόσεις παρόμοιες με τα GPT-4o και Claude Opus. Η αρχιτεκτονική του διαχωρίζει reasoning από instruction μοντέλα, κάνοντας το Qwen πιο ευέλικτο και «καθαρό» στη χρήση.

Η Sapient Intelligence προτείνει μία ριζικά νέα προσέγγιση με το Hierarchical Reasoning Model (HRM), εμπνευσμένο από τις λειτουργίες του ανθρώπινου εγκεφάλου. Αν και μόνο με 27M παραμέτρους, υπερτερεί σε σύνθετα προβλήματα σε σχέση με πολύ μεγαλύτερα μοντέλα. Δεν βασίζεται σε ακριβή pretraining ούτε σε chains-of-thought, αλλά σε αρχιτεκτονική που μιμείται τον εγκέφαλο. Ήδη δοκιμάζεται σε εφαρμογές για σπάνιες ασθένειες και κλιματική πρόβλεψη.

Ταυτόχρονα, νέες AI πλατφόρμες όπως η n8n με το Grok 4 της xAI επιτρέπουν τη δημιουργία πρακτικών agents για drafting e-mails με memory και Gmail integration, αποδεικνύοντας ότι οι πράκτορες δεν είναι μακριά από την καθημερινή χρήση.

 

 Δείκτης Sentiment:

Θετικό με συναγωνιστικό χαρακτήρα
Η ανακοίνωση της Google ενισχύει την αξιοπιστία της απέναντι στην OpenAI, σηματοδοτώντας μια νέα εποχή όπου η μαθηματική σκέψη της AI συγκρίνεται επί ίσοις όροις με την ανθρώπινη. Η καινοτομία από την Κίνα (Alibaba) και η νέα προσέγγιση «βιολογικής» AI (HRM) υπογραμμίζουν ότι το μέλλον δεν ανήκει μόνο στους μεγάλους δυτικούς παίκτες.