30 Ιανουαρίου 2023

ChatGPT Έκλεψε τη δουλειά σας. Οπότε τι θα κάνεις;

Οι δημιουργοί πρέπει να πιέσουν τα δικαστήρια, την αγορά και τις ρυθμιστικές αρχές πριν να είναι πολύ αργά.
Περίληψη Άρθρου:
Οι εταιρείες τεχνολογίας εκμεταλλεύονται δωρεάν το περιεχόμενο των χρηστών για να εκπαιδεύσουν τα συστήματα τεχνητής νοημοσύνης τους. Αυτό είναι επιζήμιο, καθώς απειλεί να θέσει ανθρώπους χωρίς δουλειά. Ωστόσο, οι χρήστες έχουν μεγάλη δύναμη και μπορούν να αναλάβουν άμεση δράση, όπως η διαμόρφωση του αρχείου robots.txt, ή ρυθμιστική δράση, όπως η πίεση για πολιτική προστασίας δεδομένων. Μπορούν επίσης να αναλάβουν νομική δράση, όπως η υιοθέτηση νέων καθεστώτων αδειοδότησης δεδομένων ή η άσκηση αγωγής, ή δράση στην αγορά, όπως η απαίτηση τα μεγάλα γλωσσικά μοντέλα να εκπαιδεύονται μόνο με δεδομένα από συναινούντες δημιουργούς. Οι εταιρείες θα πρέπει επίσης να υποστηρίξουν αυτές τις προσπάθειες για να διασφαλίσουν ότι έχουν πρόσβαση στο περιεχόμενο που χρειάζονται για την εκπαίδευση των συστημάτων τεχνητής νοημοσύνης τους.


Αναλυτικά το Άρθρο:
ΑΝ ΕΧΕΤΕ ΠΟΤΕ ανεβάσει φωτογραφίες ή έργα τέχνης, γράψει μια κριτική, κάνει "like" σε περιεχόμενο, απαντήσει σε μια ερώτηση στο Reddit, συνεισφέρει σε κώδικα ανοιχτού κώδικα ή έχει κάνει οποιαδήποτε άλλη δραστηριότητα στο διαδίκτυο, έχετε κάνει δωρεάν δουλειά για τις εταιρείες τεχνολογίας, επειδή η λήψη όλου αυτού του περιεχομένου από τον ιστό είναι ο τρόπος με τον οποίο τα συστήματα τεχνητής νοημοσύνης τους μαθαίνουν για τον κόσμο.

Οι εταιρείες τεχνολογίας το γνωρίζουν αυτό, αλλά συγκαλύπτουν τις συνεισφορές σας στα προϊόντα τους με τεχνικούς όρους όπως "δεδομένα εκπαίδευσης", "μάθηση χωρίς επίβλεψη" και "εξάντληση δεδομένων" (και, φυσικά, με αδιαπέραστα έγγραφα "Όροι χρήσης").

Στην πραγματικότητα, μεγάλο μέρος της καινοτομίας στην ΤΝ τα τελευταία χρόνια αφορά τρόπους για να χρησιμοποιούν όλο και περισσότερο από το περιεχόμενό σας δωρεάν. Αυτό ισχύει για μηχανές αναζήτησης όπως η Google, ιστότοπους μέσων κοινωνικής δικτύωσης όπως το Instagram, νεοσύστατες επιχειρήσεις έρευνας AI όπως το OpenAI και πολλούς άλλους παρόχους ευφυών τεχνολογιών. 

Αυτή η εκμεταλλευτική δυναμική είναι ιδιαίτερα επιζήμια όταν πρόκειται για το νέο κύμα προγραμμάτων δημιουργικής τεχνητής νοημοσύνης όπως το Dall-E και το ChatGPT. Χωρίς το περιεχόμενό σας, το ChatGPT και όλα τα ομοειδή του απλά δεν θα υπήρχαν.

Πολλοί ερευνητές ΤΝ πιστεύουν ότι το περιεχόμενό σας είναι στην πραγματικότητα πιο σημαντικό από το τι κάνουν οι επιστήμονες πληροφορικής. Ωστόσο, αυτές οι ευφυείς τεχνολογίες που εκμεταλλεύονται την εργασία σας είναι οι ίδιες τεχνολογίες που απειλούν να σας βγάλουν από τη δουλειά. Είναι σαν το σύστημα ΤΝ να μπαίνει στο εργοστάσιό σας και να σας κλέβει το μηχάνημα. 

Αλλά αυτή η δυναμική σημαίνει επίσης ότι οι χρήστες που παράγουν δεδομένα έχουν μεγάλη δύναμη. Οι συζητήσεις σχετικά με τη χρήση των εξελιγμένων τεχνολογιών ΤΝ συχνά προέρχονται από μια θέση αδυναμίας και τη θέση ότι οι εταιρείες ΤΝ θα κάνουν ό,τι θέλουν και ότι το κοινό δεν μπορεί να κάνει πολλά για να μετατοπίσει την τεχνολογία προς μια διαφορετική κατεύθυνση.

Είμαστε ερευνητές ΤΝ και η έρευνά μας υποδεικνύει ότι το κοινό διαθέτει ένα τεράστιο ποσό "μόχλευσης δεδομένων" που μπορεί να χρησιμοποιηθεί για τη δημιουργία ενός οικοσυστήματος ΤΝ, το οποίο αφενός θα παράγει καταπληκτικές νέες τεχνολογίες και αφετέρου θα μοιράζεται δίκαια τα οφέλη αυτών των τεχνολογιών με τους ανθρώπους που τις δημιούργησαν. 

Η ΜΕΣΑ ΔΕΔΟΜΕΝΩΝ ΜΠΟΡΕΙ να αναπτυχθεί μέσω τουλάχιστον τεσσάρων οδών: άμεση δράση (για παράδειγμα, άτομα που συσπειρώνονται για να παρακρατήσουν, να "δηλητηριάσουν" ή να ανακατευθύνουν δεδομένα), ρυθμιστική δράση (για παράδειγμα, πιέζοντας για πολιτική προστασίας δεδομένων και νομική αναγνώριση των "συνασπισμών δεδομένων"), νομική δράση (για παράδειγμα, κοινότητες που υιοθετούν νέα καθεστώτα αδειοδότησης δεδομένων ή επιδιώκουν αγωγή), και δράση στην αγορά (για παράδειγμα, απαιτώντας τα μεγάλα γλωσσικά μοντέλα να εκπαιδεύονται μόνο με δεδομένα από συναινούντες δημιουργούς). 

Ας ξεκινήσουμε με την άμεση δράση, η οποία είναι μια ιδιαίτερα συναρπαστική οδός, επειδή μπορεί να γίνει άμεσα. Λόγω της εξάρτησης των συστημάτων δημιουργικής τεχνητής νοημοσύνης από την απόξεση ιστοσελίδων, οι ιδιοκτήτες ιστοτόπων θα μπορούσαν να διαταράξουν σημαντικά τη διοχέτευση δεδομένων εκπαίδευσης εάν απαγορεύσουν ή περιορίσουν την απόξεση με τη διαμόρφωση του αρχείου robots.txt (ένα αρχείο που λέει στους ανιχνευτές ιστοσελίδων ποιες σελίδες είναι εκτός ορίων).

Μεγάλοι ιστότοποι περιεχομένου που δημιουργείται από χρήστες, όπως η Wikipedia, το StackOverflow και το Reddit, είναι ιδιαίτερα σημαντικοί για τα συστήματα δημιουργικής τεχνητής νοημοσύνης και θα μπορούσαν να εμποδίσουν τα συστήματα αυτά να έχουν πρόσβαση στο περιεχόμενό τους με ακόμη πιο ισχυρούς τρόπους - για παράδειγμα, με τον αποκλεισμό της κυκλοφορίας IP και της πρόσβασης API.

Σύμφωνα με τον Elon Musk, το Twitter έκανε πρόσφατα ακριβώς αυτό. Οι παραγωγοί περιεχομένου θα πρέπει επίσης να επωφεληθούν από τους μηχανισμούς εξαίρεσης που παρέχουν όλο και περισσότερο οι εταιρείες τεχνητής νοημοσύνης. Για παράδειγμα, οι προγραμματιστές στο GitHub μπορούν να εξαιρεθούν από τα δεδομένα εκπαίδευσης της BigCode μέσω μιας απλής φόρμας.

Γενικότερα, η απλή φωνή όταν το περιεχόμενο έχει χρησιμοποιηθεί χωρίς τη συγκατάθεσή σας είναι κάπως αποτελεσματική. Για παράδειγμα, ο μεγάλος παίκτης της γεννητικής τεχνητής νοημοσύνης Stability AI συμφώνησε να τιμήσει τα αιτήματα εξαίρεσης που συλλέχθηκαν μέσω του haveibeentrained.com μετά από αναταραχή στα μέσα κοινωνικής δικτύωσης.

Συμμετέχοντας σε δημόσιες μορφές δράσης, όπως στην περίπτωση της μαζικής διαμαρτυρίας κατά της τέχνης ΤΝ από καλλιτέχνες, μπορεί να είναι δυνατό να αναγκαστούν οι εταιρείες να σταματήσουν επιχειρηματικές δραστηριότητες που το μεγαλύτερο μέρος του κοινού αντιλαμβάνεται ως κλοπή.

Οι εταιρείες μέσων μαζικής ενημέρωσης, των οποίων η εργασία είναι αρκετά σημαντική για τα μεγάλα γλωσσικά μοντέλα (LLM), μπορεί επίσης να θέλουν να εξετάσουν ορισμένες από αυτές τις ιδέες για να περιορίσουν τα συστήματα δημιουργικής τεχνητής νοημοσύνης από την πρόσβαση στο δικό τους περιεχόμενο, καθώς αυτά τα συστήματα λαμβάνουν επί του παρόντος δωρεάν τα κοσμήματα της κορώνας τους (συμπεριλαμβανομένου, πιθανότατα, αυτού του άρθρου).

Για παράδειγμα, ο Ezra Klein ανέφερε σε ένα πρόσφατο podcast ότι το ChatGPT είναι εξαιρετικό στο να τον μιμείται, πιθανότατα επειδή κατέβασε ένα σωρό άρθρα του χωρίς να ρωτήσει τον ίδιο ή τον εργοδότη του.

Κρίσιμο είναι ότι ο χρόνος είναι επίσης με το μέρος των δημιουργών δεδομένων: Καθώς συμβαίνουν νέα γεγονότα στον κόσμο, η τέχνη βγαίνει από τη μόδα, τα γεγονότα αλλάζουν και ανοίγουν νέα εστιατόρια, νέες ροές δεδομένων είναι απαραίτητες για την υποστήριξη σύγχρονων συστημάτων.

Χωρίς αυτές τις ροές, τα συστήματα αυτά είναι πιθανό να αποτύχουν για πολλές βασικές εφαρμογές.  Αρνούμενοι να διαθέσουν νέα δεδομένα χωρίς αποζημίωση, οι δημιουργοί δεδομένων θα μπορούσαν επίσης να ασκήσουν πίεση στις εταιρείες να πληρώσουν για την πρόσβαση σε αυτά.

Από ρυθμιστικής πλευράς, οι νομοθέτες πρέπει να αναλάβουν δράση για την προστασία αυτού που μπορεί να είναι η μεγαλύτερη κλοπή εργασίας στην ιστορία, και μάλιστα γρήγορα. Ένας από τους καλύτερους τρόπους για να γίνει αυτό είναι η αποσαφήνιση ότι η "θεμιτή χρήση" βάσει του νόμου περί πνευματικών δικαιωμάτων δεν επιτρέπει την εκπαίδευση ενός μοντέλου σε περιεχόμενο χωρίς τη συγκατάθεση του ιδιοκτήτη του περιεχομένου, τουλάχιστον για εμπορικούς σκοπούς.

Οι νομοθέτες σε όλο τον κόσμο θα πρέπει επίσης να εργαστούν πάνω σε νόμους "κατά του ξεπλύματος δεδομένων" που θα καθιστούν σαφές ότι τα μοντέλα που εκπαιδεύονται σε δεδομένα χωρίς συγκατάθεση πρέπει να επανεκπαιδεύονται εντός εύλογου χρονικού διαστήματος χωρίς το προσβλητικό περιεχόμενο.

Πολλά από αυτά μπορούν να βασιστούν σε υφιστάμενα πλαίσια σε μέρη όπως η Ευρώπη και η Καλιφόρνια, καθώς και στο ρυθμιστικό έργο που γίνεται για να διασφαλιστεί ότι οι ειδησεογραφικοί οργανισμοί θα λαμβάνουν μερίδιο από τα έσοδα που παράγουν για τις πλατφόρμες κοινωνικής δικτύωσης.

Υπάρχει επίσης αυξανόμενη δυναμική για νόμους περί "μερίσματος δεδομένων", οι οποίοι θα αναδιανέμουν τον πλούτο που παράγεται από τις ευφυείς τεχνολογίες. Αυτά μπορούν επίσης να βοηθήσουν, υπό την προϋπόθεση ότι θα αποφύγουν ορισμένες βασικές παγίδες.

Επιπλέον, οι υπεύθυνοι χάραξης πολιτικής θα μπορούσαν να βοηθήσουν τους μεμονωμένους δημιουργούς και τους συνεισφέροντες δεδομένων να ενωθούν για να προβάλουν αιτήματα.

Συγκεκριμένα, η υποστήριξη πρωτοβουλιών όπως οι συνεταιρισμοί δεδομένων -οργανώσεις που διευκολύνουν τους συνεισφέροντες σε δεδομένα να συντονίζονται και να συγκεντρώνουν τη δύναμή τους- θα μπορούσε να διευκολύνει τις απεργίες δεδομένων μεγάλης κλίμακας μεταξύ των δημιουργών και να φέρει στο τραπέζι των διαπραγματεύσεων τις επιχειρήσεις που χρησιμοποιούν τεχνητή νοημοσύνη. 

Τα δικαστήρια παρουσιάζουν επίσης τρόπους για να ανακτήσουν οι άνθρωποι τον έλεγχο του περιεχομένου τους. Ενώ τα δικαστήρια εργάζονται για την αποσαφήνιση των ερμηνειών του νόμου περί πνευματικών δικαιωμάτων, υπάρχουν πολλές άλλες επιλογές. Το LinkedIn έχει επιτύχει να αποτρέψει τους ανθρώπους που σαρώνουν τον ιστότοπό του από το να συνεχίσουν να το κάνουν μέσω των όρων χρήσης και του συμβατικού δικαίου.

Το εργατικό δίκαιο μπορεί επίσης να προσφέρει μια οπτική γωνία για την ενδυνάμωση των συνεισφερόντων δεδομένων. Ιστορικά, η εξάρτηση των εταιρειών από "εθελοντές" για τη λειτουργία των επιχειρήσεών τους έχει εγείρει σημαντικά ερωτήματα σχετικά με το κατά πόσον οι εταιρείες αυτές παραβίασαν τον νόμο περί δίκαιων εργασιακών προτύπων, και αυτοί οι αγώνες θα μπορούσαν να χρησιμεύσουν ως πρότυπο. Στο παρελθόν, ορισμένοι εθελοντές κατέληξαν ακόμη και σε νομικούς διακανονισμούς με εταιρείες που επωφελήθηκαν από την εργασία τους. 

Υπάρχει επίσης ένας κρίσιμος ρόλος για την αγορά εδώ. Εάν αρκετές κυβερνήσεις, ιδρύματα και ιδιώτες απαιτήσουν "LLMs με πλήρη συναίνεση" -που πληρώνουν τους δημιουργούς για το περιεχόμενο που χρησιμοποιούν- οι εταιρείες θα ανταποκριθούν.

Αυτή η απαίτηση θα μπορούσε να ενισχυθεί από επιτυχείς αγωγές κατά οργανισμών που χρησιμοποιούν γενεσιουργό ΤΝ (σε αντίθεση με τους οργανισμούς που κατασκευάζουν τα συστήματα) χωρίς να πληρώνουν τους χρήστες. Εάν οι εφαρμογές που έχουν κατασκευαστεί πάνω σε μοντέλα ΤΝ αντιμετωπίσουν αγωγές, θα υπάρξει μεγαλύτερη ζήτηση για συστήματα ΤΝ που δεν παίζουν στη νομική Άγρια Δύση.

Η έρευνα του εργαστηρίου μας (και των συναδέλφων μας) υποδεικνύει επίσης κάτι που μας εξέπληξε: Πολλές από τις παραπάνω ενέργειες θα πρέπει στην πραγματικότητα να βοηθήσουν τις εταιρείες δημιουργικής ΤΝ. Χωρίς υγιή οικοσυστήματα περιεχομένου, το περιεχόμενο στο οποίο βασίζονται οι τεχνολογίες δημιουργικής τεχνητής νοημοσύνης για να μάθουν για τον κόσμο θα εξαφανιστεί.

Αν κανείς δεν πηγαίνει στο Reddit επειδή παίρνει απαντήσεις από το ChatGPT, πώς θα μάθει το ChatGPT από το περιεχόμενο του Reddit; Αυτό θα δημιουργήσει σημαντικές προκλήσεις για αυτές τις εταιρείες με τρόπο που μπορεί να λυθεί πριν εμφανιστεί, υποστηρίζοντας κάποιες από τις παραπάνω προσπάθειες.

Πηγή:ChatGPT Stole Your Work. So What Are You Going to Do? | WIRED