«Βάζοντας την Τεχνητή Νοημοσύνη σε… Συνέντευξη» – Γιατί τα παραδοσιακά benchmarks δεν αρκούν πια

Περίληψη
Ο Ethan Mollick εξηγεί ότι ο τρόπος με τον οποίο μετράμε την «ευφυΐα» της τεχνητής νοημοσύνης είναι ανεπαρκής. Τα κλασικά benchmarks – τεστ γνώσεων, μαθηματικών ή κώδικα – δίνουν μια εικόνα, αλλά δεν δείχνουν το πραγματικό επίπεδο ικανότητας ενός AI σε σύνθετες, καθημερινές εργασίες. Πολλά από αυτά τα τεστ είναι δημόσια, έχουν προβληματικές βαθμολογίες ή δεν αξιολογούν δεξιότητες όπως γραφή, ανάλυση, κρίση ή επιχειρηματική σκέψη.
Από την άλλη, οι χρήστες αναπτύσσουν «ανεπίσημες» δοκιμές — τα λεγόμενα vibe checks — για να καταλάβουν την προσωπικότητα και τις αδυναμίες ενός μοντέλου. Αλλά αυτές δεν είναι συστηματικές.
Το ουσιαστικό μήνυμα: οι οργανισμοί δεν πρέπει να βασίζονται σε γενικά benchmarks αλλά να φτιάχνουν ρεαλιστικά tests προσαρμοσμένα στις δικές τους ανάγκες, όπως θα έκαναν σε μια συνέντευξη πρόσληψης. Το παράδειγμα της μελέτης GDPval δείχνει ότι τα μοντέλα έχουν διαφορετικές ικανότητες σε διαφορετικά tasks, και επίσης διαφορετικές «στάσεις» απέναντι στον κίνδυνο και την κρίση.
Άρα, κάθε εταιρεία πρέπει να «προσλαμβάνει» το AI μέσω πραγματικών δοκιμασιών, όχι θεωρητικών μετρήσεων.
Κύρια Σημεία
- Τα benchmarks αξιολογούν την «ευφυΐα» της AI, αλλά συχνά δεν μετρούν αυτό που νομίζουμε.
- Πολλά τεστ είναι δημόσια → τα μοντέλα μπορεί να τα έχουν «δει» στην εκπαίδευσή τους.
- Οι βαθμολογίες ανεβαίνουν συνεχώς, αλλά δεν είναι σαφές τι ακριβώς αποτυπώνουν.
- Η πρακτική «vibes benchmarking» αποκαλύπτει χαρακτήρα, λάθη και στυλ των μοντέλων.
- Στον πραγματικό κόσμο, οι εταιρείες πρέπει να κάνουν “AI job interviews” – δηλαδή ρεαλιστικές δοκιμές σε εργασίες που τους αφορούν.
- Η μελέτη GDPval της OpenAI δείχνει ότι:
- AI > άνθρωποι σε αρκετά tasks (software, personal finance).
- Άνθρωποι > AI σε άλλα (φαρμακοποιοί, μηχανικοί, μεσίτες).
- Τα AI δίνουν διαφορετικές κρίσεις σε ασαφή θέματα (π.χ. βιωσιμότητα επιχειρηματικών ιδεών).
- Οι διαφορές αυτές πολλαπλασιάζονται σε κλίμακα και επηρεάζουν χιλιάδες αποφάσεις.
Παρακάτω μια αναλυτική, εκτενής περίληψη του κειμένου με σαφή δομή και εμβάθυνση στα βασικά επιχειρήματα:
Αναλυτικά
Το κείμενο του Ethan Mollick εξετάζει την τρέχουσα κατάσταση της αξιολόγησης των συστημάτων τεχνητής νοημοσύνης και υποστηρίζει ότι ο τρόπος με τον οποίο μετράμε την «ευφυΐα» των μοντέλων είναι πλέον ανεπαρκής για τις πραγματικές ανάγκες των ανθρώπων και των οργανισμών. Τα παραδοσιακά benchmarks — δηλαδή τυποποιημένα τεστ γνώσεων, κατανόησης, λογικής ή προγραμματισμού — έχουν παίξει σημαντικό ρόλο στην ανάπτυξη της AI, αλλά δεν ανταποκρίνονται στον πραγματικό τρόπο με τον οποίο χρησιμοποιείται η τεχνητή νοημοσύνη σήμερα.
1. Το πρόβλημα με τα κλασικά benchmarks
Τα συνηθισμένα benchmarks έχουν τρία βασικά μειονεκτήματα:
Δεν αξιολογούν αυτό που νομίζουμε ότι αξιολογούν.
Η υψηλή επίδοση ενός μοντέλου σε ένα τεστ δεν αποδεικνύει ότι το μοντέλο μπορεί να χειριστεί αντίστοιχες, πιο περίπλοκες πραγματικές εργασίες.
Πολλά τεστ είναι δημόσια.
Τα μοντέλα συχνά έχουν «δει» αυτά τα benchmarks στη φάση της εκπαίδευσης, άρα οι επιδόσεις μπορεί να μην αντανακλούν πραγματική ικανότητα αλλά έμμεση απομνημόνευση.
Οι βαθμολογίες ανεβαίνουν, αλλά χωρίς ξεκάθαρη σημασία.
Η συνεχής βελτίωση των μοντέλων πάνω στα ίδια τεστ δεν μας δείχνει αν βελτιώνεται πράγματι η πρακτική χρησιμότητά τους. Μετράμε αριθμούς, αλλά όχι συμπεριφορές.
2. Το παράδοξο του “vibes benchmarking”
Οι χρήστες, αντιλαμβανόμενοι τα όρια των τυπικών benchmarks, έχουν αναπτύξει ανεπίσημες δοκιμές — τα λεγόμενα vibe checks.
Αυτά δεν είναι συστηματικά, αλλά συχνά αποκαλύπτουν:
- τη «προσωπικότητα» που φαίνεται να έχει το μοντέλο,
- τις ιδιόμορφες αδυναμίες του,
- τον τρόπο που απαντά σε ασαφείς ή ανοιχτές ερωτήσεις,
- πόσο βοηθητικό ή αξιόπιστο είναι σε πραγματικές συνθήκες.
Παρότι άτυπα, τα vibe checks συχνά προσφέρουν βαθύτερη κατανόηση από τα επίσημα benchmarks, ακριβώς επειδή προσομοιώνουν πραγματική χρήση.
3. Η ανάγκη για "AI job interviews"
Ο Mollick υποστηρίζει ότι οι οργανισμοί πρέπει να αντιμετωπίζουν την τεχνητή νοημοσύνη όπως θα αντιμετώπιζαν έναν υποψήφιο εργαζόμενο
- να της δίνουν πραγματικές εργασίες, όχι θεωρητικά τεστ,
- να ελέγχουν πώς ανταποκρίνεται σε πραγματικές συνθήκες,
- να αξιολογούν όχι μόνο τη γνώση, αλλά την κρίση, το στυλ σκέψης, τις προτιμήσεις και τα λάθη της.
Με άλλα λόγια, κάθε εταιρεία πρέπει να φτιάχνει δικές της δοκιμασίες — custom, realistic evaluations — και να μην βασίζεται σε γενικούς δείκτες.
4. Το παράδειγμα της μελέτης GDPval της OpenAI
Η μελέτη αυτή δείχνει ότι τα AI μοντέλα έχουν ανισόπεδες ικανότητες ανάλογα με το είδος του task:
- Σε τομείς όπως software development και προσωπική χρηματοοικονομική ανάλυση, η AI υπερέχει.
- Σε επαγγέλματα που απαιτούν πολύ εξειδικευμένη γνώση ή λεπτή ανθρώπινη κρίση (φαρμακευτική, μηχανική, μεσιτικά), οι άνθρωποι παραμένουν πιο αξιόπιστοι.
Ταυτόχρονα αποκαλύπτεται ότι:
- Η AI μπορεί να έχει διαφορετική στάση απέναντι στον κίνδυνο.
- Δίνει διαφορετικές αξιολογήσεις για αμφίσημες επιχειρηματικές ή στρατηγικές αποφάσεις.
- Αυτές οι μικρές διαφορές, όταν κλιμακώνονται, επηρεάζουν εκατοντάδες ή χιλιάδες πραγματικές αποφάσεις σε οργανισμούς.
5. Κεντρική ιδέα
Δεν μπορούμε πλέον να μιλάμε για «ευφυΐα της AI» με βάση εξετάσεις που δεν αντανακλούν την καθημερινή πραγματικότητα.
Η ουσία βρίσκεται στη συμπεριφορά του μοντέλου σε πραγματικές, πρακτικές εργασίες — στο πώς γράφει, πώς αναλύει, πώς σκέφτεται, πώς προτείνει ιδέες.
Οι οργανισμοί πρέπει να σταματήσουν να βασίζονται στους παραδοσιακούς πίνακες βαθμολογίας και να αρχίσουν να κάνουν ρεαλιστικά AI job interviews.
