Η βλακεία της Τεχνητής Νοημοσύνης (ΜΕΡΟΣ Α’)

24/03/2023 | | |

Περίληψη άρθρου:
Το OpenAI κυκλοφόρησε ένα κομμάτι λογισμικού που ονομάζεται Dall-E τον Ιανουάριο του 2021, το οποίο επέτρεπε στους χρήστες να εισάγουν μια απλή περιγραφή μιας εικόνας που είχαν στο μυαλό τους και να λάβουν μια σχεδόν απίστευτα καλή ερμηνεία της πρότασής τους. Αυτό πυροδότησε ένα κύμα καταναλωτικής τεχνητής νοημοσύνης, με εργαλεία όπως το ChatGPT και το Midjourney, καθώς και το Stable Diffusion ανοιχτού κώδικα και το Meta του Facebook. Η άμεση μηχανική έχει γίνει μια περιζήτητη δεξιότητα, όπου κάποιος πλαισιώνει οδηγίες με όρους που είναι πιο κατανοητοί από το σύστημα. Η δημιουργία εικόνων AI βασίζεται στη συναρμολόγηση και ανάλυση εκατομμυρίων εικόνων με ετικέτα, οι οποίες υποβάλλονται σε επεξεργασία μέσω νευρωνικών δικτύων. Ωστόσο, αυτές οι εικόνες λαμβάνονται συχνά από το δημόσιο τομέα χωρίς πίστωση ή αμοιβή. Η Lapine, μια ψηφιακή καλλιτέχνης, βρήκε το δικό της πρόσωπο στο σύνολο δεδομένων LAION, το οποίο ελήφθη από τα ιδιωτικά ιατρικά της αρχεία χωρίς την άδειά της. Η δημιουργία εικόνας και κειμένου με τεχνητή νοημοσύνη είναι μια μορφή πρωτόγονης συσσώρευσης, απαλλοτρίωσης της εργασίας από τους πολλούς για τον εμπλουτισμό λίγων εταιρειών τεχνολογίας.

Αναλυτικά το άρθρο:
Τον Ιανουάριο του 2021, το ερευνητικό εργαστήριο τεχνητής νοημοσύνης OpenAI έδωσε μια περιορισμένη έκδοση σε ένα λογισμικό που ονομάζεται Dall-E. Το λογισμικό επέτρεπε στους χρήστες να εισάγουν μια απλή περιγραφή μιας εικόνας που είχαν στο μυαλό τους και, μετά από μια σύντομη παύση, το λογισμικό παρήγαγε μια σχεδόν απίστευτα καλή ερμηνεία της πρότασής τους, αντάξια ενός επαγγελματία εικονογράφου ή ενός έμπειρου σχεδιαστή της Adobe - αλλά πολύ πιο γρήγορα και δωρεάν.

Πληκτρολογώντας, για παράδειγμα, "ένα γουρούνι με φτερά που πετάει πάνω από το φεγγάρι, εικονογραφημένο από τον Antoine de Saint-Exupéry", το αποτέλεσμα ήταν, μετά από ένα ή δύο λεπτά επεξεργασίας, κάτι που θύμιζε τα αποσπασματικά αλλά αναγνωρίσιμα πινέλα ακουαρέλας του δημιουργού του Μικρού Πρίγκιπα.

Ένα χρόνο περίπου αργότερα, όταν το λογισμικό κυκλοφόρησε ευρύτερα, το διαδίκτυο έγινε ανυπόφορο. Τα μέσα κοινωνικής δικτύωσης κατακλύστηκαν από κάθε είδους παράξενες και θαυμαστές δημιουργίες, ένα πληθωρικό συνονθύλευμα φαντασιώσεων και καλλιτεχνικών στυλ. Και λίγους μήνες αργότερα συνέβη ξανά, αυτή τη φορά με τη γλώσσα, και ένα προϊόν που ονομάζεται ChatGPT, το οποίο επίσης παράγεται από την OpenAI.

Η τελευταία δεξιότητα έχει γίνει γνωστή ως "μηχανική της προτροπής": η τεχνική της διαμόρφωσης των οδηγιών με όρους που κατανοούνται με μεγαλύτερη σαφήνεια από το σύστημα, έτσι ώστε να επιστρέφει τα αποτελέσματα που ανταποκρίνονται περισσότερο στις προσδοκίες - ή ίσως και να τις υπερβαίνουν. Οι μιμητές και οι εξελίξεις του Dall-E ακολούθησαν γρήγορα. Το Dall-E mini (που αργότερα μετονομάστηκε σε Craiyon) έδωσε σε όσους δεν προσκλήθηκαν στις ιδιωτικές υπηρεσίες του OpenAI την ευκαιρία να παίξουν με ένα παρόμοιο, λιγότερο ισχυρό, αλλά και πάλι άκρως εντυπωσιακό εργαλείο.

Εν τω μεταξύ, η ανεξάρτητη εμπορική προσπάθεια Midjourney και το Stable Diffusion ανοιχτού κώδικα χρησιμοποιούσαν μια διαφορετική προσέγγιση για την ταξινόμηση και τη δημιουργία εικόνων, με τους ίδιους σχεδόν σκοπούς. Μέσα σε λίγους μήνες, ο τομέας είχε προχωρήσει ταχύτατα στη δημιουργία σύντομων βίντεο και τρισδιάστατων μοντέλων, με νέα εργαλεία να εμφανίζονται καθημερινά από ακαδημαϊκά τμήματα και ερασιτέχνες προγραμματιστές, καθώς και από τους καθιερωμένους γίγαντες των μέσων κοινωνικής δικτύωσης και πλέον της τεχνητής νοημοσύνης: Facebook (γνωστός και ως Meta), Google, Microsoft και άλλοι.

Το όνομα Dall-E συνδυάζει τον πρωταγωνιστή ρομπότ της ταινίας Wall-E της Disney με τον Ισπανό σουρεαλιστή καλλιτέχνη Σαλβαδόρ Νταλί. Από τη μία πλευρά, έχουμε τη φιγούρα μιας θαρραλέας, αυτόνομης και αξιολάτρευτης μικρής μηχανής που σαρώνει τα συντρίμμια ενός ανθρώπινου πολιτισμού που κατέρρευσε, και από την άλλη έναν άνθρωπο του οποίου τα πιο επαναλαμβανόμενα bon mots περιλαμβάνουν: "Όσοι δεν θέλουν να μιμηθούν τίποτα, δεν παράγουν τίποτα" και "Αυτό που έχει σημασία είναι να διαδίδουμε τη σύγχυση, όχι να την εξαλείφουμε". Και οι δύο είναι αξιοθαύμαστοι ονοματοδότες για το ευρύ φάσμα εργαλείων που έχουν γίνει γνωστά ως γεννήτριες εικόνων τεχνητής νοημοσύνης.

Τον τελευταίο χρόνο, αυτό το νέο κύμα καταναλωτικής τεχνητής νοημοσύνης, το οποίο περιλαμβάνει τόσο τη δημιουργία εικόνων όσο και εργαλεία όπως το ChatGPT, έχει κατακτήσει τη λαϊκή φαντασία. Έχει επίσης δώσει ώθηση στην τύχη των μεγάλων τεχνολογικών εταιρειών, οι οποίες, παρά τις πολλές προσπάθειες, απέτυχαν να πείσουν τους περισσότερους από εμάς ότι είτε η αλυσίδα μπλοκ είτε η εικονική πραγματικότητα ("metaverse") είναι το μέλλον που θέλει ο καθένας από εμάς.

Εδώ και δύο δεκαετίες δεν έχουν σημειωθεί σημαντικές ανακαλύψεις στον ακαδημαϊκό κλάδο της τεχνητής νοημοσύνης. Η υποκείμενη τεχνολογία των νευρωνικών δικτύων -μια μέθοδος μηχανικής μάθησης που βασίζεται στον τρόπο λειτουργίας των φυσικών εγκεφάλων- θεωρητικοποιήθηκε και εφαρμόστηκε στην πράξη τη δεκαετία του 1990.

Μπορούσατε να τα χρησιμοποιήσετε και τότε για να δημιουργήσετε εικόνες, αλλά αυτές ήταν κυρίως άμορφες αφηρημένες εικόνες, κηλίδες χρώματος με μικρή συναισθηματική ή αισθητική απήχηση. Τα πρώτα πειστικά chatbots τεχνητής νοημοσύνης χρονολογούνται ακόμη πιο παλιά. Το 1964, ο Joseph Weizenbaum, ένας επιστήμονας πληροφορικής στο Τεχνολογικό Ινστιτούτο της Μασαχουσέτης, ανέπτυξε ένα chatbot που ονομαζόταν Eliza.

Η Eliza είχε ως πρότυπο έναν "προσωποκεντρικό" ψυχοθεραπευτή: ό,τι κι αν λέγατε, σας αντανακλούσε. Αν λέγατε "Νιώθω λυπημένος", η Eliza θα απαντούσε με "Γιατί νιώθεις λυπημένος;", και ούτω καθεξής. (Ο Weizenbaum ήθελε στην πραγματικότητα το πρόγραμμά του να καταδείξει την επιφανειακότητα της ανθρώπινης επικοινωνίας και όχι να αποτελέσει σχέδιο για μελλοντικά προϊόντα).

Οι πρώιμες τεχνητές νοημοσύνες δεν γνώριζαν πολλά για τον κόσμο, και τα ακαδημαϊκά τμήματα δεν είχαν την υπολογιστική ισχύ για να τις εκμεταλλευτούν σε κλίμακα. Η διαφορά σήμερα δεν είναι η νοημοσύνη, αλλά τα δεδομένα και η ισχύς. Οι μεγάλες εταιρείες τεχνολογίας έχουν περάσει 20 χρόνια συλλέγοντας τεράστιες ποσότητες δεδομένων από τον πολιτισμό και την καθημερινή ζωή και κατασκευάζοντας τεράστια, ενεργοβόρα κέντρα δεδομένων γεμάτα με ολοένα και πιο ισχυρούς υπολογιστές για να τα επεξεργαστούν. Αυτά που κάποτε ήταν παλιά νευρωνικά δίκτυα που έτρεμαν, έχουν γίνει υπερδύναμα, και η έκρηξη της τεχνητής νοημοσύνης που βλέπουμε είναι το αποτέλεσμα.

Η παραγωγή εικόνων τεχνητής νοημοσύνης βασίζεται στη συγκέντρωση και ανάλυση εκατομμυρίων και εκατομμυρίων εικόνων με ετικέτες, δηλαδή εικόνων που συνοδεύονται ήδη από κάποια περιγραφή του περιεχομένου τους. Αυτές οι εικόνες και οι περιγραφές επεξεργάζονται στη συνέχεια μέσω νευρωνικών δικτύων που μαθαίνουν να συνδέουν συγκεκριμένες και βαθιά διαφοροποιημένες ιδιότητες της εικόνας - σχήματα, χρώματα, συνθέσεις - με συγκεκριμένες λέξεις και φράσεις.

Αυτές οι ιδιότητες τοποθετούνται στη συνέχεια η μία πάνω στην άλλη για να παράγουν νέες ρυθμίσεις σχήματος, χρώματος και σύνθεσης, με βάση τα δισεκατομμύρια διαφορετικής βαρύτητας συσχετισμούς που δημιουργούνται από μια απλή προτροπή. Αλλά από πού προήλθαν όλες αυτές οι αρχικές εικόνες;

Τα σύνολα δεδομένων που κυκλοφόρησαν από το LAION, ένα γερμανικό μη κερδοσκοπικό ίδρυμα, αποτελούν ένα καλό παράδειγμα του είδους των συλλογών εικόνων-κειμένου που χρησιμοποιούνται για την εκπαίδευση μεγάλων μοντέλων τεχνητής νοημοσύνης (αποτέλεσαν τη βάση τόσο για το Stable Diffusion όσο και για το Imagen της Google, μεταξύ άλλων).

Για περισσότερο από μια δεκαετία, ένας άλλος μη κερδοσκοπικός οργανισμός του παγκόσμιου ιστού, ο Common Crawl, ευρετηριάζει και αποθηκεύει όσο το δυνατόν μεγαλύτερο μέρος του δημόσιου παγκόσμιου ιστού στο οποίο μπορεί να έχει πρόσβαση, αρχειοθετώντας έως και 3 δισεκατομμύρια σελίδες κάθε μήνα. Οι ερευνητές του LAION πήραν ένα κομμάτι από τα δεδομένα του Common Crawl και έβγαλαν κάθε εικόνα με ετικέτα "alt", μια περίπου γραμμή κειμένου που προορίζεται για την περιγραφή εικόνων σε ιστοσελίδες.

Μετά από κάποια περικοπή, οι σύνδεσμοι προς τις αρχικές εικόνες και το κείμενο που τις περιγράφει απελευθερώνονται σε τεράστιες συλλογές: Η LAION-5B, που κυκλοφόρησε τον Μάρτιο του 2022, περιέχει περισσότερα από πέντε δισεκατομμύρια ζεύγη κειμένου-εικόνας. Αυτές οι εικόνες είναι "δημόσιες" εικόνες με την ευρύτερη έννοια: οποιαδήποτε εικόνα έχει δημοσιευτεί ποτέ στο διαδίκτυο μπορεί να συγκεντρωθεί σε αυτές, με ακριβώς τα περίεργα αποτελέσματα που μπορεί κανείς να περιμένει.

Τον Σεπτέμβριο του 2022, μία ψηφιακή καλλιτέχνης με έδρα το Σαν Φρανσίσκο, ονόματι Lapine, χρησιμοποιούσε ένα εργαλείο που ονομάζεται Have I Been Trained, το οποίο επιτρέπει στους καλλιτέχνες να δουν αν η δουλειά τους χρησιμοποιείται για την εκπαίδευση μοντέλων δημιουργίας εικόνων τεχνητής νοημοσύνης.

Το Have I Been Trained δημιουργήθηκε από τους καλλιτέχνες Mat Dryhurst και Holly Herndon, η δική τους δουλειά τους οδήγησε να διερευνήσουν τους τρόπους με τους οποίους η εργασία των καλλιτεχνών χρησιμοποιείται από την τεχνητή νοημοσύνη. Όταν η Lapine το χρησιμοποίησε για να σαρώσει τη βάση δεδομένων LAION, βρήκε μια εικόνα του δικού της προσώπου.

Μπόρεσε να εντοπίσει την εικόνα αυτή σε φωτογραφίες που τράβηξε ένας γιατρός όταν υποβαλλόταν σε θεραπεία για μια σπάνια γενετική πάθηση. Οι φωτογραφίες τραβήχτηκαν ως μέρος της κλινικής τεκμηρίωσής της και η ίδια υπέγραψε έγγραφα που περιόριζαν τη χρήση τους μόνο στον ιατρικό της φάκελο. Ο εμπλεκόμενος γιατρός πέθανε το 2018.

Με κάποιο τρόπο, αυτές οι ιδιωτικές ιατρικές εικόνες κατέληξαν στο διαδίκτυο, στη συνέχεια στο αρχείο του Common Crawl και στο σύνολο δεδομένων του LAION, και τελικά εισήχθησαν στα νευρωνικά δίκτυα καθώς μάθαιναν για τη σημασία των εικόνων και πώς να δημιουργούν νέες. Απ' όσο ξέρουμε, η στικτή ροζ υφή του γουρουνιού μας τύπου Saint-Exupéry θα μπορούσε να έχει αναμειχθεί, έστω και διακριτικά, από την ωμή σάρκα ενός καρκινοπαθούς.

"Είναι το ψηφιακό ισοδύναμο της παραλαβής κλεμμένης περιουσίας. Κάποιος έκλεψε την εικόνα από τα αρχεία του αποθανόντος γιατρού μου και κατέληξε κάπου στο διαδίκτυο, και στη συνέχεια μπήκε σε αυτό το σύνολο δεδομένων", δήλωσε η Lapine στον ιστότοπο Ars Technica. "Είναι αρκετά κακό να διαρρέει μια φωτογραφία, αλλά τώρα είναι μέρος ενός προϊόντος. Και αυτό ισχύει για τις φωτογραφίες οποιουδήποτε, είτε πρόκειται για ιατρικό φάκελο είτε όχι.

Το ενδεχόμενο μελλοντικής κατάχρησης είναι πραγματικά υψηλό". Το σύνολο αυτού του είδους της διαθέσιμης στο κοινό τεχνητής νοημοσύνης, είτε λειτουργεί με εικόνες είτε με λέξεις, καθώς και οι πολλές εφαρμογές που βασίζονται σε δεδομένα, βασίζονται σε αυτή τη χονδρική οικειοποίηση της υπάρχουσας κουλτούρας, το εύρος της οποίας μόλις που μπορούμε να κατανοήσουμε.

Δημόσια ή ιδιωτικά, νόμιμα ή μη, τα περισσότερα από τα κείμενα και τις εικόνες που συλλέγονται από αυτά τα συστήματα βρίσκονται στο νεφελώδες πεδίο της "θεμιτής χρήσης" (που επιτρέπεται στις ΗΠΑ, αλλά είναι αμφισβητήσιμη αν όχι εντελώς παράνομη στην ΕΕ). Όπως και τα περισσότερα από όσα συμβαίνουν στο εσωτερικό των προηγμένων νευρωνικών δικτύων, είναι πραγματικά αδύνατο να καταλάβουμε πώς λειτουργούν από το εξωτερικό, αν εξαιρέσουμε σπάνιες συναντήσεις όπως αυτή της Lapine.

Μπορούμε όμως να είμαστε σίγουροι για το εξής: οι εκροές αυτού του είδους της τεχνητής νοημοσύνης εξαρτώνται εξ ολοκλήρου από την άμισθη και μη αμειβόμενη εργασία γενεών ανθρώπινων καλλιτεχνών. Η παραγωγή εικόνων και κειμένων με τεχνητή νοημοσύνη είναι καθαρή πρωταρχική συσσώρευση: απαλλοτρίωση της εργασίας των πολλών για τον πλουτισμό και την πρόοδο μερικών τεχνολογικών εταιρειών της Silicon Valley και των δισεκατομμυριούχων ιδιοκτητών τους.

Αυτές οι εταιρείες έβγαλαν τα χρήματά τους εισχωρώντας σε κάθε πτυχή της καθημερινής ζωής, συμπεριλαμβανομένων των πιο προσωπικών και δημιουργικών τομέων της ζωής μας: τα μυστικά μας πάθη, τις ιδιωτικές μας συζητήσεις, τα ομοιώματά μας και τα όνειρά μας. Περιόρισαν τη φαντασία μας με τον ίδιο περίπου τρόπο που οι γαιοκτήμονες και οι ληστές βαρόνοι περιόριζαν τα κάποτε κοινά εδάφη.

Υποσχέθηκαν ότι με αυτόν τον τρόπο θα άνοιγαν νέα πεδία της ανθρώπινης εμπειρίας, θα μας έδιναν πρόσβαση σε όλη την ανθρώπινη γνώση και θα δημιουργούσαν νέα είδη ανθρώπινης σύνδεσης. Αντ' αυτού, μας πουλάνε πίσω τα όνειρά μας, επανασυσκευασμένα ως προϊόντα μηχανών, με τη μόνη υπόσχεση να είναι ότι θα βγάλουν ακόμα περισσότερα χρήματα διαφημιζόμενοι πάνω σε αυτά.

Πηγή: The stupidity of AI

Η βλακεία της Τεχνητής Νοημοσύνης (ΜΕΡΟΣ Α’)

Newsletter