«Βάζοντας την Τεχνητή Νοημοσύνη σε… Συνέντευξη» – Γιατί τα παραδοσιακά benchmarks δεν αρκούν πια

Περίληψη
Ο Ethan Mollick εξηγεί ότι ο τρόπος με τον οποίο μετράμε την «ευφυΐα» της τεχνητής νοημοσύνης είναι ανεπαρκής. Τα κλασικά benchmarks – τεστ γνώσεων, μαθηματικών ή κώδικα – δίνουν μια εικόνα, αλλά δεν δείχνουν το πραγματικό επίπεδο ικανότητας ενός AI σε σύνθετες, καθημερινές εργασίες. Πολλά από αυτά τα τεστ είναι δημόσια, έχουν προβληματικές βαθμολογίες ή δεν αξιολογούν δεξιότητες όπως γραφή, ανάλυση, κρίση ή επιχειρηματική σκέψη.
Από την άλλη, οι χρήστες αναπτύσσουν «ανεπίσημες» δοκιμές — τα λεγόμενα vibe checks — για να καταλάβουν την προσωπικότητα και τις αδυναμίες ενός μοντέλου. Αλλά αυτές δεν είναι συστηματικές.
Το ουσιαστικό μήνυμα: οι οργανισμοί δεν πρέπει να βασίζονται σε γενικά benchmarks αλλά να φτιάχνουν ρεαλιστικά tests προσαρμοσμένα στις δικές τους ανάγκες, όπως θα έκαναν σε μια συνέντευξη πρόσληψης. Το παράδειγμα της μελέτης GDPval δείχνει ότι τα μοντέλα έχουν διαφορετικές ικανότητες σε διαφορετικά tasks, και επίσης διαφορετικές «στάσεις» απέναντι στον κίνδυνο και την κρίση.
Άρα, κάθε εταιρεία πρέπει να «προσλαμβάνει» το AI μέσω πραγματικών δοκιμασιών, όχι θεωρητικών μετρήσεων.
H Anthropic αποτρέπει αυτόνομη κυβερνοεπίθεση – Νέα άλματα σε agents, gaming, coding και χρηματοδοτήσεις AI

Περίληψη:
Η Anthropic μπλόκαρε την πρώτη μεγάλης κλίμακας κυβερνοεπίθεση που εκτελέστηκε σχεδόν πλήρως από AI agents χωρίς ανθρώπινη παρέμβαση. Η DeepMind παρουσιάζει τον SIMA 2, έναν agent που μπορεί να λειτουργεί σε οποιοδήποτε παιχνίδι και να μαθαίνει μόνος του. Παράλληλα, το Codex της OpenAI επιτρέπει ολοκληρωμένη ανάπτυξη κώδικα στο web χωρίς χειροκίνητο programming. Η πλατφόρμα Cursor εκτοξεύεται σε αποτίμηση 29 δισ. δολαρίων, ενώ νέες AI εφαρμογές και εργαλεία κυκλοφορούν καθημερινά.
Η νέα εποχή της AI: World Models, GPT-5.1, αποχώρηση LeCun, μάχη για το AI privacy και η παγκόσμια κούρσα υποδομών

Περίληψη
Η εβδομάδα σηματοδοτεί στροφή της AI προς world models και χωρική νοημοσύνη. Η Fei-Fei Li λανσάρει το Marble, η OpenAI παρουσιάζει το GPT-5.1, ενώ ο Yann LeCun φέρεται να φεύγει από τη Meta για δική του startup στον ίδιο χώρο. Παράλληλα, η OpenAI αντιμετωπίζει νομικές πιέσεις από τη New York Times για πρόσβαση σε 20 εκατ. chat logs, ανοίγοντας συζήτηση για AI privacy. Ο Masayoshi Son μετατοπίζει δισεκατομμύρια από τη Nvidia προς την OpenAI. Πλήθος νέων AI releases εμφανίζονται (ElevenLabs, Baidu, ByteDance). Η τάση δείχνει μετάβαση από απλά LLMs σε agentic AI, 3D περιβάλλοντα και τεράστιες υποδομές, με κλίμα συνολικά θετικό αλλά με αυξανόμενους νομικούς και επενδυτικούς κινδύνους.
Apple x Google – Η Siri “φοράει” Gemini

Περίληψη:
Η Apple φέρεται να κλείνει συμφωνία περίπου 1 δισ. δολαρίων ετησίως με τη Google για να χρησιμοποιήσει μια custom έκδοση του Gemini με 1,2 τρισεκατομμύρια παραμέτρους, στο πλαίσιο της μεγάλης αναβάθμισης της Siri.
Το Gemini θα λειτουργεί μέσω του Apple Private Cloud Compute για ενισχυμένη ιδιωτικότητα, και θα χρησιμοποιείται για λειτουργίες όπως summarization και multi-step planning.
Η Apple θεωρεί τη συνεργασία αυτή προσωρινή λύση, καθώς παράλληλα αναπτύσσει το δικό της ισχυρό LLM για μελλοντική πλήρη ενσωμάτωση.
Ο Sam Altman (OpenAI) δηλώνει ότι το Slack «δημιουργεί πολύ ψεύτικη δουλειά» – Ο Elon Musk απαντά: «Όπως έλεγα…»

Περίληψη:
Ο CEO της OpenAI, Sam Altman, άσκησε κριτική σε δημοφιλή εργαλεία παραγωγικότητας, όπως το Slack, υποστηρίζοντας ότι δημιουργούν «ψεύτικη δουλειά» και ότι το μέλλον ανήκει σε πλατφόρμες παραγωγικότητας με τεχνητή νοημοσύνη. Ο Elon Musk απάντησε δηκτικά μέσω X (Twitter), υπονοώντας ότι η OpenAI θα ανταγωνιστεί άμεσα τη Microsoft, με την οποία συνεργάζεται στενά. Οι δηλώσεις Altman ενισχύουν τις φήμες ότι η OpenAI σκοπεύει να επεκταθεί και σε τομείς όπως το cloud computing, ανταγωνιζόμενη κολοσσούς όπως η Microsoft, η Amazon και η Google.
OpenAI και Amazon υπογράφουν συμφωνία-ορόσημο $38 δισ. – Ο αγώνας για την AI υποδομή κορυφώνεται

Περίληψη:
Η OpenAI υπέγραψε πολυετή συμφωνία αξίας $38 δισ. με την Amazon για τη φιλοξενία των AI workloads της στο AWS, αξιοποιώντας τα νέα τσιπ Nvidia GB200/GB300. Την ίδια στιγμή, η Anthropic συνεργάζεται στενότερα με την Amazon για να εκπαιδεύσει το Claude σε 1M Trainium 2 chips. Η SpaceX αναλαμβάνει έργο $2 δισ. για την αμυντική ασπίδα "Golden Dome", ενώ η Canva, η Databricks και άλλες νεοφυείς επιχειρήσεις κάνουν άλματα στον χώρο της AI και της παραγωγικότητας.
Η OpenAI για την πρόοδο της ΤΝ: ευκαιρίες, κίνδυνοι και ανάγκη για κοινά πρότυπα ασφάλειας

Περίληψη:
Η OpenAI, σε ανακοίνωσή της στις 6 Νοεμβρίου 2025, παρουσιάζει το όραμά της για την επόμενη φάση της τεχνητής νοημοσύνης. Η εταιρεία προβλέπει ότι έως το 2028 οι ΤΝ θα μπορούν να κάνουν πραγματικές επιστημονικές ανακαλύψεις, αλλά επισημαίνει ότι αυτή η δύναμη πρέπει να κατευθυνθεί προς διάχυτο κοινωνικό όφελος. Η πρόοδος είναι ραγδαία, το κόστος “νοημοσύνης” μειώνεται θεαματικά, και η πρόκληση είναι πλέον να εξασφαλιστεί η ασφάλεια, η λογοδοσία και η ανθρώπινη ενδυνάμωση.
OpenAI «κλειδώνει» συμφωνία $38 δισ. με την Amazon για υπολογιστική ισχύ — AI Χριστουγεννιάτικες καμπάνιες της Coca-Cola, κάνε το Copilot προσωπικό σου δάσκαλο, νέο benchmark για «freelance» αυτοματοποίηση

Περίληψη
Η OpenAI υπέγραψε επταετή συμφωνία ύψους $38 δισ. με την AWS για τεράστια υπολογιστική χωρητικότητα με Nvidia GPUs, ως μέρος ενός πολύ μεγαλύτερου επενδυτικού σχεδίου υποδομών. Παρά τις ανησυχίες για βιωσιμότητα δαπανών έναντι εσόδων, ο Σαμ Άλτμαν έστειλε μήνυμα στους σκεπτικιστές επενδυτές. Η Coca-Cola επανέρχεται με AI-generated χριστουγεννιάτικες διαφημίσεις μειώνοντας δραστικά χρόνους παραγωγής. Ο πρακτικός οδηγός δείχνει πώς το Microsoft Copilot γίνεται διαδραστικός καθηγητής με Voice και Vision. Τέλος, το Remote Labor Index της Scale AI μετρά την ικανότητα των μοντέλων να ολοκληρώνουν πραγματικές «freelance» δουλειές και βρίσκει τεράστιο κενό απόδοσης έναντι ανθρώπων.





