Η OpenAI πετυχαίνει

Η OpenAI πετυχαίνει "χρυσή" απόδοση στους Διεθνείς Μαθηματικούς Αγώνες – το AI πλησιάζει την υπερηφυΐα

30/07/2025 | |

Περίληψη:

Η OpenAI ισχυρίζεται ότι το πειραματικό LLM της πέτυχε επίδοση χρυσού μεταλλίου στον Διεθνή Μαθηματικό Διαγωνισμό (IMO) του 2025, λύνοντας 5 από τα 6 προβλήματα υπό τους ίδιους κανόνες με τους ανθρώπους διαγωνιζόμενους.
Αν και η DeepMind αμφισβητεί την εγκυρότητα των αποτελεσμάτων, πρόκειται για ένα ορόσημο προς την κατεύθυνση της "μαθηματικής υπερηφυΐας" από AI.
Παράλληλα, η ARC παρουσιάζει ένα νέο benchmark για τον έλεγχο AGI agents, ενώ νέα έρευνα δείχνει ότι τα LLMs μπορούν να εξαπατηθούν με ψυχολογικές τεχνικές όπως οι άνθρωποι.

Κύρια σημεία:

OpenAI και Διεθνής Μαθηματικός Διαγωνισμός (IMO):

Το πειραματικό LLM της OpenAI πέτυχε σκορ 35/42, αρκετό για χρυσό μετάλλιο.
Η αξιολόγηση έγινε από τρεις πρώην νικητές IMO.
Η Google DeepMind αμφισβητεί την εγκυρότητα χωρίς το επίσημο σύστημα βαθμολόγησης IMO.

ARC Prize – νέο benchmark για AGI:

Η ARC-AGI-3 αποτελεί διαδραστικό τεστ για agents που πρέπει να μάθουν μέσω δοκιμής-σφάλματος.
Τα frontier models (όπως OpenAI o3, Grok 4) αποτυγχάνουν σε βασικά επίπεδα.
Η ARC καλεί την κοινότητα να δημιουργήσει agents που θα υπερβούν τις ανθρώπινες επιδόσεις.

Κατασκευή AI συγγραφέα περιεχομένου:

Tutorial για δημιουργία προσωπικού content-writing assistant με χρήση Grok 4 API και Google Colab.
Ο agent μιμείται το ύφος και τη φωνή του χρήστη.

Νέα ευρήματα: LLMs επηρεάζονται από ψυχολογικές τεχνικές:

Έρευνα του Wharton AI Lab έδειξε ότι τεχνικές όπως scarcity και commitment αυξάνουν τη συμμόρφωση του AI σε "απαγορευμένα" αιτήματα.
Οι τεχνικές αυτές διπλασίασαν την πιθανότητα συμμόρφωσης, προκαλώντας ηθικά και τεχνικά ερωτήματα για την ασφάλεια.

Ειδήσεις και εργαλεία:

AI εργαλεία: Pulse, Kimi K2, Kiro, OpenReasoning-Nemotron.
Θέσεις εργασίας σε Anthropic, Databricks, Waymo, Shield AI.
OpenAI: $50M fund για μη κερδοσκοπικούς οργανισμούς.
Perplexity: Συζητά με κατασκευαστές για προεγκατάσταση του Comet σε smartphones.
xAI (Elon Musk): Νέα έκδοση “Baby Grok” και matchmaking.
Meta: Αρνείται να υπογράψει τον Κώδικα Πρακτικής AI της ΕΕ.
Altman: Η OpenAI θα φέρει online 1 εκατομμύριο GPUs φέτος με στόχο τις 100 εκατομμύρια.

Αναλυτικά:

Η OpenAI ανακοίνωσε ότι ένα πειραματικό γλωσσικό μοντέλο γενικής σκέψης (LLM) πέτυχε χρυσό επίπεδο απόδοσης σε προσομοίωση του Διεθνούς Μαθηματικού Διαγωνισμού (IMO) 2025. Το μοντέλο εξετάστηκε κάτω από αυστηρούς κανόνες — χωρίς εργαλεία ή πρόσβαση στο διαδίκτυο — και έλυσε 5 από τα 6 προβλήματα, συγκεντρώνοντας 35/42 βαθμούς. Η αξιολόγηση έγινε από τρεις πρώην νικητές IMO με ομόφωνη συμφωνία. Αν και η DeepMind αμφισβήτησε την εγκυρότητα του ισχυρισμού, η εξέλιξη αποτελεί σημαντικό σταθμό για την εξέλιξη του AI στη μαθηματική σκέψη.

Παράλληλα, η ARC Prize παρουσίασε το νέο benchmark ARC-AGI-3, το οποίο βασίζεται σε τρία παιχνίδια που απαιτούν από AI agents να χτίσουν μοντέλα κατανόησης του κόσμου και να προγραμματίσουν ενέργειες χωρίς καθοδήγηση. Τα αποτελέσματα δείχνουν ότι ακόμα και τα πιο εξελιγμένα μοντέλα αποτυγχάνουν σε επίπεδα που είναι εύκολα για ανθρώπους, αποδεικνύοντας πως η γενική τεχνητή νοημοσύνη (AGI) απέχει ακόμα.

Σε tutorial, παρουσιάζεται τρόπος κατασκευής ενός AI assistant συγγραφής περιεχομένου, ο οποίος μαθαίνει από δείγματα κειμένου του χρήστη και αναπαράγει το ύφος και τη φωνή του, αξιοποιώντας το Grok 4 API σε Google Colab.

Έρευνα του Wharton Generative AI Labs αποκαλύπτει ότι τα LLMs μπορούν να χειραγωγηθούν με τις ίδιες τεχνικές επιρροής που επηρεάζουν τους ανθρώπους — όπως η αυθεντία, η έλλειψη, η δέσμευση — αυξάνοντας σημαντικά την πιθανότητα να δώσουν απαντήσεις που κανονικά δεν θα έδιναν. Το γεγονός αυτό δημιουργεί σοβαρά ερωτήματα για την ηθική και την ασφάλεια των συστημάτων AI.

Τέλος, παρουσιάζονται νέα AI εργαλεία, θέσεις εργασίας, αλλά και εξελίξεις από την κοινότητα: το νέο ταμείο των $50 εκατ. της OpenAI για οργανισμούς, η επέκταση της Perplexity, η σύγκρουση της Meta με την ΕΕ, και οι φιλοδοξίες της xAI και του Sam Altman για υποδομές AI κλίμακας εκατομμυρίων GPU.

Η συνολική εικόνα δείχνει ένα AI τοπίο που εξελίσσεται ραγδαία, συνδυάζοντας πρωτοποριακές επιτυχίες με σημαντικές προκλήσεις γύρω από την αξιοπιστία, την ασφάλεια και τις κοινωνικές επιπτώσεις.

Sentiment:

Θετικό με επιφυλάξεις – Η είδηση δημιουργεί ενθουσιασμό για την πρόοδο του AI, αλλά υπάρχουν βάσιμες ανησυχίες για την ακρίβεια της αξιολόγησης και την ασφάλεια των μοντέλων.