Η μάχη της Γενετικής Τεχνητής Νοημοσύνης έχει ένα θεμελιώδες ελάττωμα

16/08/2023 | |

Περίληψη άρθρου:
Η Ένωση Συγγραφέων απαιτεί συναίνεση, αναγνώριση και δίκαιη αποζημίωση για τη χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης. Οι αγωγές κατά του OpenAI αναδεικνύουν τις ανησυχίες σχετικά με τη δίκαιη χρήση και τη χρήση πειρατικού υλικού σε σύνολα δεδομένων εκπαίδευσης. Τα αποτελέσματα ενδέχεται να διαμορφώσουν τον τρόπο με τον οποίο ο νόμος αντιμετωπίζει τα σύνολα δεδομένων και να καθορίσουν εάν μπορεί να διεκδικηθεί η δίκαιη χρήση. Η σχέση μεταξύ της δίκαιης χρήσης και των νομίμως αποκτηθέντων δεδομένων παραμένει αβέβαιη και η αυστηρότερη επιβολή των πνευματικών δικαιωμάτων θα μπορούσε να καταπνίξει τη δημιουργικότητα. Αυτές οι αγωγές μπορεί να ωθήσουν τις εταιρείες AI να συνάψουν συμφωνίες αδειοδότησης ή να ζητήσουν άδεια από τους καλλιτέχνες. Για την αποτελεσματική αντιμετώπιση αυτών των ζητημάτων μπορεί να χρειαστούν ολοκληρωμένοι κανονισμοί για την ΤΝ.

Κύρια σημεία του άρθρου:

Η Ένωση Συγγραφέων έστειλε ανοιχτή επιστολή στις εταιρείες δημιουργικής τεχνητής νοημοσύνης, ζητώντας συγκατάθεση, αναγνώριση και αποζημίωση για τη χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα στην εκπαίδευση της τεχνητής νοημοσύνης.
Έχουν κατατεθεί αρκετές αγωγές από συγγραφείς που ισχυρίζονται ότι τα συστήματα γεννητικής ΤΝ εκπαιδεύτηκαν στα έργα τους χωρίς άδεια, αλλά η νομοθεσία περί πνευματικών δικαιωμάτων μπορεί να μην επαρκεί για να αντιμετωπίσει όλες τις ανησυχίες που διατυπώνονται.
Ορισμένοι εμπειρογνώμονες υποστηρίζουν ότι η OpenAI μπορεί να χρησιμοποίησε πειρατικά σύνολα δεδομένων για την εκπαίδευση των μοντέλων της, επειδή περιέχουν υψηλής ποιότητας γραπτά κείμενα για ένα ευρύ φάσμα θεμάτων.
Η τεχνολογία της δημιουργικής τεχνητής νοημοσύνης ήρθε για να μείνει, και η νομοθεσία περί πνευματικών δικαιωμάτων από μόνη της δεν μπορεί να αντιμετωπίσει όλες τις προκλήσεις που θέτει.

Αναλυτικά το άρθρο:
Συγγραφείς και καλλιτέχνες ζητούν αποζημίωση από εταιρείες τεχνητής νοημοσύνης που ισχυρίζονται ότι έχουν εκπαιδεύσει τα μοντέλα τους σε έργα που προστατεύονται από πνευματικά δικαιώματα. Όμως οι νομικοί τους αγώνες παραλείπουν τα μεγαλύτερα ζητήματα.

ΤΗΝ ΠΕΡΑΣΜΕΝΗ ΕΒΔΟΜΑΔΑ, η Συντεχνία Συγγραφέων έστειλε ανοιχτή επιστολή στους ηγέτες ορισμένων από τις μεγαλύτερες εταιρείες δημιουργικής τεχνητής νοημοσύνης στον κόσμο. Υπογεγραμμένη από περισσότερους από 9.000 συγγραφείς, συμπεριλαμβανομένων διακεκριμένων συγγραφέων όπως ο Τζορτζ Σόντερς και η Μάργκαρετ Άτγουντ, ζητούσε από τις εταιρείες Alphabet, OpenAI, Meta και Microsoft "να λάβουν τη συγκατάθεση, να αναφέρουν και να αποζημιώσουν δίκαια τους συγγραφείς για τη χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα στην εκπαίδευση της τεχνητής νοημοσύνης". Η έκκληση είναι απλώς η τελευταία σε μια σειρά προσπαθειών δημιουργών να εξασφαλίσουν αναγνώριση και αποζημίωση για τον ρόλο που, όπως ισχυρίζονται, έπαιξε το έργο τους στην εκπαίδευση γεννητικών συστημάτων AI.

Τα δεδομένα εκπαίδευσης που χρησιμοποιούνται για τα μεγάλα γλωσσικά μοντέλα, ή LLM, και άλλα συστήματα τεχνητής νοημοσύνης έχουν παραμείνει μυστικά. Όσο περισσότερο όμως χρησιμοποιούνται αυτά τα συστήματα, τόσο περισσότεροι συγγραφείς και εικαστικοί καλλιτέχνες παρατηρούν ομοιότητες μεταξύ της δουλειάς τους και των αποτελεσμάτων αυτών των συστημάτων. Πολλοί έχουν καλέσει τις εταιρείες δημιουργικής τεχνητής νοημοσύνης να αποκαλύψουν τις πηγές των δεδομένων τους και -όπως και η Συντεχνία Συγγραφέων- να αποζημιώσουν όσους χρησιμοποίησαν τα έργα τους. Ορισμένες από τις εκκλήσεις είναι ανοιχτές επιστολές και αναρτήσεις στα μέσα κοινωνικής δικτύωσης, αλλά ένας αυξανόμενος αριθμός είναι αγωγές.

Εδώ είναι που ο νόμος περί πνευματικών δικαιωμάτων παίζει σημαντικό ρόλο. Ωστόσο, πρόκειται για ένα εργαλείο που δεν είναι επαρκώς εξοπλισμένο για να αντιμετωπίσει όλο το εύρος των ανησυχιών των καλλιτεχνών, είτε πρόκειται για μακροχρόνιες ανησυχίες σχετικά με την απασχόληση και την αποζημίωση σε έναν κόσμο που ανατρέπεται από το διαδίκτυο, είτε για νέες ανησυχίες σχετικά με την ιδιωτικότητα και τα προσωπικά -και μη κατοχυρώσιμα- χαρακτηριστικά. Για πολλά από αυτά, τα πνευματικά δικαιώματα μπορούν να προσφέρουν μόνο περιορισμένες απαντήσεις. "Υπάρχουν πολλά ερωτήματα που δημιουργεί η τεχνητή νοημοσύνη για σχεδόν κάθε πτυχή της κοινωνίας", λέει ο Mike Masnick, συντάκτης του τεχνολογικού ιστολογίου Techdirt. "Αλλά αυτή η στενή εστίαση στα πνευματικά δικαιώματα ως το εργαλείο για την αντιμετώπισή τους, νομίζω ότι είναι πραγματικά άστοχη".

Η ΠΙΟ ΥΨΗΛΗ από αυτές τις πρόσφατες αγωγές ήρθε νωρίτερα αυτό το μήνα, όταν η κωμικός Sarah Silverman, μαζί με άλλους τέσσερις συγγραφείς σε δύο ξεχωριστές καταθέσεις, μήνυσε την OpenAI, ισχυριζόμενη ότι η εταιρεία εκπαίδευσε το εξαιρετικά δημοφιλές σύστημα ChatGPT στα έργα τους χωρίς άδεια. Και οι δύο ομαδικές αγωγές κατατέθηκαν από τη δικηγορική εταιρεία Joseph Saveri, η οποία ειδικεύεται σε αντιμονοπωλιακές διαφορές. Η εταιρεία εκπροσωπεί επίσης τους καλλιτέχνες που μηνύουν τις Stability AI, Midjourney και DeviantArt για παρόμοιους λόγους. Την περασμένη εβδομάδα, κατά τη διάρκεια μιας ακρόασης στην εν λόγω υπόθεση, ο δικαστής του περιφερειακού δικαστηρίου των ΗΠΑ William Orrick ανέφερε ότι ενδέχεται να απορρίψει το μεγαλύτερο μέρος της αγωγής, δηλώνοντας ότι, δεδομένου ότι τα συστήματα αυτά είχαν εκπαιδευτεί σε "πέντε δισεκατομμύρια συμπιεσμένες εικόνες", οι εμπλεκόμενοι καλλιτέχνες έπρεπε να "παράσχουν περισσότερα στοιχεία" για τους ισχυρισμούς τους περί παραβίασης πνευματικών δικαιωμάτων.

Η υπόθεση Silverman ισχυρίζεται, μεταξύ άλλων, ότι η OpenAI μπορεί να έχει αντλήσει τα απομνημονεύματα του κωμικού, Bedwetter, μέσω "σκιωδών βιβλιοθηκών" που φιλοξενούν σωρούς πειρατικών ηλεκτρονικών βιβλίων και ακαδημαϊκών εργασιών. Εάν το δικαστήριο αποφανθεί υπέρ της Silverman και των συναδέλφων της εναγόντων, η απόφαση θα μπορούσε να δημιουργήσει νέο προηγούμενο για το πώς ο νόμος βλέπει τα σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης, λέει ο Matthew Sag, καθηγητής νομικής στο Πανεπιστήμιο Emory. Συγκεκριμένα, θα μπορούσε να βοηθήσει να καθοριστεί κατά πόσον οι εταιρείες μπορούν να επικαλεστούν δίκαιη χρήση όταν τα μοντέλα τους ξύνουν υλικό που προστατεύεται από πνευματικά δικαιώματα. "Δεν πρόκειται να καλέσω το αποτέλεσμα σε αυτό το ζήτημα", λέει ο Sag για την αγωγή του Silverman. "Αλλά φαίνεται να είναι η πιο πειστική από όλες τις υποθέσεις που έχουν κατατεθεί". Η OpenAI δεν απάντησε σε αιτήματα για σχόλια.

Στον πυρήνα αυτών των υποθέσεων, εξηγεί ο Sag, βρίσκεται η ίδια γενική θεωρία: ότι τα LLM "αντέγραψαν" τα προστατευόμενα έργα των συγγραφέων. Ωστόσο, όπως εξήγησε ο Sag στην κατάθεσή του σε ακρόαση υποεπιτροπής της αμερικανικής Γερουσίας νωρίτερα αυτό το μήνα, μοντέλα όπως τα GPT-3.5 και GPT-4 δεν "αντιγράφουν" έργο με την παραδοσιακή έννοια. Το digest θα ήταν ένα καταλληλότερο ρήμα-κατασκευή δεδομένων εκπαίδευσης για να επιτελέσουν τη λειτουργία τους: πρόβλεψη της καλύτερης επόμενης λέξης σε μια ακολουθία. "Αντί να σκεφτόμαστε ότι ένα LLM αντιγράφει τα δεδομένα εκπαίδευσης όπως ένας γραφέας σε ένα μοναστήρι", δήλωσε ο Sag στην κατάθεσή του στη Γερουσία, "είναι πιο λογικό να το σκεφτόμαστε ότι μαθαίνει από τα δεδομένα εκπαίδευσης όπως ένας μαθητής".

Αυτό έχει σχέση με τη δίκαιη χρήση, το μέρος του αμερικανικού νόμου περί πνευματικών δικαιωμάτων που προστατεύει γενικά τη μη αδειοδοτημένη χρήση έργων που προστατεύονται από πνευματικά δικαιώματα για πράγματα όπως η υποτροφία και η έρευνα. Διότι αν η αναλογία είναι σωστή, τότε αυτό που συμβαίνει εδώ είναι παρόμοιο με το πώς μια μηχανή αναζήτησης δημιουργεί το ευρετήριό της - και υπάρχει μια μακρά ιστορία της Google που χρησιμοποιεί ακριβώς αυτό το επιχείρημα για να υπερασπιστεί το επιχειρηματικό της μοντέλο έναντι ισχυρισμών περί κλοπής. Το 2006 η εταιρεία απέκρουσε αγωγή από την Perfect 10, έναν ιστότοπο ψυχαγωγίας ενηλίκων, επειδή παρείχε υπερσυνδέσμους και μικρογραφίες πορνό μόνο για συνδρομητές στα αποτελέσματα αναζήτησης. Το 2013 έπεισε δικαστήριο της Νέας Υόρκης ότι η σάρωση εκατομμυρίων βιβλίων και η διάθεση αποσπασμάτων τους στο διαδίκτυο συνιστούσε θεμιτή χρήση. "Κατά την άποψή μου, το Google Books παρέχει σημαντικά δημόσια οφέλη", έγραψε στην απόφασή του ο δικαστής του αμερικανικού δικαστηρίου Denny Chin. Το 2014, ένας δικαστής έκρινε υπέρ της HathiTrust Digital Library, ενός παρακλαδιού της Google Books, σε μια παρόμοια υπόθεση.

Η Sag εκτιμά ότι οι εναγόμενοι σε παρόμοιες αγωγές για την παραγωγή τεχνητής νοημοσύνης θα χρησιμοποιήσουν παρόμοια επαύξηση: Ναι, τα δεδομένα μπαίνουν, αλλά αυτό που βγαίνει είναι κάτι εντελώς διαφορετικό. Επομένως, ενώ μπορεί να φαίνεται κοινώς αποδεκτό ότι η ανθρώπινη ανάγνωση και η "ανάγνωση" από μια μηχανή είναι εγγενώς διαφορετικές δραστηριότητες, δεν είναι σαφές ότι τα δικαστήρια θα το δουν έτσι. Και υπάρχει ένα άλλο ερωτηματικό που εκκρεμεί σχετικά με το αν μια μηχανή μπορεί να δημιουργήσει ένα παράγωγο έργο, λέει ο Daniel Gervais, καθηγητής πνευματικής ιδιοκτησίας και δικαίου της τεχνητής νοημοσύνης στο Πανεπιστήμιο Vanderbilt στο Νάσβιλ του Τενεσί: Το Γραφείο Πνευματικών Δικαιωμάτων των ΗΠΑ υποστηρίζει ότι μόνο οι άνθρωποι μπορούν να παράγουν "έργα".

ΑΝ τα επιχειρήματα της υπεράσπισης ισχύουν, τότε υπάρχει το θέμα του από πού προήλθαν τα βιβλία αυτά. Αρκετοί από τους ειδικούς με τους οποίους μίλησε το WIRED συμφωνούν ότι ένα από τα πιο πειστικά επιχειρήματα κατά του OpenAI επικεντρώνεται στα μυστικά σύνολα δεδομένων που φέρεται να χρησιμοποίησε η εταιρεία για την εκπαίδευση των μοντέλων της. Ο ισχυρισμός, που εμφανίζεται αυτολεξεί και στις δύο πρόσφατες αγωγές, είναι ότι το σύνολο δεδομένων Books2, το οποίο σύμφωνα με τις αγωγές περιέχει 294.000 βιβλία, πρέπει, λόγω του μεγέθους του, να περιέχει πειρατικό υλικό. "Τα μόνα διαδικτυακά σώματα βιβλίων που προσέφεραν ποτέ τόσο μεγάλο υλικό είναι οι διαβόητοι ιστότοποι "σκιωδών βιβλιοθηκών" όπως οι Library Genesis (γνωστός και ως LibGen), Z-Library (γνωστός και ως B-ok), Sci-Hub και Bibliotik", υποστηρίζουν οι αγωγές.

Ο λόγος για τον οποίο το OpenAI θα λεηλατούσε πειρατικά δεδομένα είναι απλός: Αυτές οι ιστοσελίδες περιέχουν μια πληθώρα από υψηλής ποιότητας γραπτά, για ένα τεράστιο εύρος θεμάτων, που παράγονται από ένα ευρύ φάσμα συγγραφέων. Ο Sag υποστηρίζει ότι η χρήση έργων που προστατεύονται από πνευματικά δικαιώματα, όπως τα βιβλία, μπορεί να έχει βοηθήσει να γίνουν οι LLM "πιο ολοκληρωμένοι", κάτι που μπορεί να ήταν δύσκολο αν, ας πούμε, εκπαιδεύονταν μόνο σε αναρτήσεις στο Reddit και άρθρα της Wikipedia.

Δεν υπάρχει προηγούμενο στις ΗΠΑ που να συνδέει άμεσα τη δίκαιη χρήση με το αν τα έργα που προστατεύονται από πνευματικά δικαιώματα αποκτήθηκαν νόμιμα ή όχι. Αλλά, λέει ο Sag, δεν υπάρχει επίσης καμία πρόβλεψη ότι η παράνομη πρόσβαση είναι άσχετη σε τέτοιες περιπτώσεις. (Στην Ευρωπαϊκή Ένωση, προβλέπεται ότι οι επιχειρήσεις εξόρυξης δεδομένων πρέπει να έχουν νόμιμη πρόσβαση στις πληροφορίες που χρησιμοποιούν).

Ένας τρόπος να δούμε αυτό το πρόβλημα είναι να ισχυριστούμε ότι η νόμιμη πρόσβαση είναι άσχετη με την έμπνευση, ένα επιχείρημα που ο Masnick διατύπωσε πρόσφατα στο Techdirt. "Αν ένας μουσικός εμπνευστεί να δημιουργήσει μουσική σε ένα συγκεκριμένο είδος αφού ακούσει πειρατικά τραγούδια σε αυτό το είδος, αυτό θα κάνει τα τραγούδια που δημιούργησε να παραβιάζουν;" έγραψε.

Η ανησυχία του Masnick είναι ότι κάποια αυστηρότερη φαντασίωση της παραβίασης των πνευματικών δικαιωμάτων, με στόχο τον περιορισμό της δημιουργικής ΤΝ, θα μπορούσε να έχει ακούσια ανασταλτική επίδραση στη δημιουργικότητα. Νωρίτερα φέτος, το Γραφείο Πνευματικής Ιδιοκτησίας των ΗΠΑ ξεκίνησε μια πρωτοβουλία για τη διερεύνηση θεμάτων ΤΝ. "Φοβάμαι ότι λέγοντας 'δεν μπορούμε να μάθουμε από αυτούς τους άλλους καλλιτέχνες χωρίς να τους αποζημιώσουμε', δημιουργεί πραγματικά μεγάλα προβλήματα για τον τρόπο με τον οποίο δημιουργείται αυτή η τέχνη και τον τρόπο με τον οποίο οι δημιουργοί περιεχομένου μαθαίνουν", λέει. "Ο κανονικός τρόπος με τον οποίο οι δημιουργοί περιεχομένου όλων των ειδών γίνονται οι ίδιοι δημιουργοί περιεχομένου είναι ότι βλέπουν κάποιον άλλον και εμπνέονται από αυτόν".

Από την άλλη πλευρά, αν κάποιος ξοδεύει χρόνια γράφοντας ένα μυθιστόρημα, δεν θα πρέπει τα πνευματικά δικαιώματα να διασφαλίζουν ότι θα αποζημιωθεί αν κάποιος άλλος χρησιμοποιήσει τα έργα του για εμπορικούς σκοπούς; "Θα μπορούσατε να το παρουσιάσετε ως υπονόμευση των κινήτρων του συστήματος πνευματικών δικαιωμάτων", λέει ο Sag. Με απλά λόγια, αν τα συστήματα γεννητικής τεχνητής νοημοσύνης μπορούν να ξύνουν έργα που προστατεύονται από πνευματικά δικαιώματα χωρίς να αποζημιώνουν τους συγγραφείς και να βγάζουν κάτι σε παρόμοιο στυλ, μήπως αυτό μειώνει τα κίνητρα για τους ανθρώπους να δημιουργούν τέτοια έργα εξ αρχής;

ΑΥΤΕΣ ΟΙ ΝΟΜΙΚΕΣ ΑΓΩΓΕΣ, ΑΚΟΜΑ κι αν αποτύχουν, είναι πιθανό να προκαλέσουν τις εταιρείες παραγωγής ΤΝ να λάβουν μέτρα για να τις αποφύγουν. Τα μέτρα αυτά είναι απίθανο να είναι ευχάριστο ανάγνωσμα για τους καλλιτέχνες. Οι εταιρείες αυτές θα μπορούσαν, για παράδειγμα, να συνάψουν συμφωνίες αδειοδότησης για τη χρήση έργων που προστατεύονται από πνευματικά δικαιώματα στα δεδομένα εκπαίδευσής τους. Έχει αναφερθεί ευρέως ότι αυτό θα ήταν ανάλογο με το πώς, ας πούμε, το Spotify αδειοδοτεί τη μουσική -αν και με αμφιλεγόμενους όρους- με τρόπο που δεν το έκανε η αρχική έκδοση του Napster. Ο Drake, για παράδειγμα, θα μπορούσε να αδειοδοτήσει τη δισκογραφία του, ώστε οι οπαδοί να μπορούν να δημιουργήσουν δικά τους τραγούδια που μοιάζουν με τα τραγούδια του Drake.

Σε ένα άλλο πιθανό μέλλον, οι καλλιτέχνες θα κληθούν να δώσουν τη συγκατάθεσή τους για να επιτραπεί η χρήση της δουλειάς τους ως εκπαιδευτικών δεδομένων. Η Roblox, η οποία ήταν προσεκτική με τα εσωτερικά της εργαλεία, εξετάζει ένα τέτοιο μοντέλο για περιεχόμενο που δημιουργείται από τους χρήστες της, ενώ η Adobe ήταν εξίσου προσεκτική με το Firefly, εκπαιδεύοντάς το σε εικόνες από το Adobe Stock και σε περιεχόμενο με άδεια χρήσης και δημόσιας ιδιοκτησίας. Το Associated Press ανακοίνωσε επίσης πρόσφατα μια συμφωνία για την αδειοδότηση των ειδήσεών του στο OpenAI.

Τελικά, όμως, η τεχνολογία δεν πρόκειται να εξαφανιστεί και τα πνευματικά δικαιώματα μπορούν να διορθώσουν μόνο ορισμένες από τις συνέπειές της. Όπως σημειώνει η Stephanie Bell, επιστημονική συνεργάτης στη μη κερδοσκοπική οργάνωση Partnership on AI, η δημιουργία ενός προηγούμενου όπου τα δημιουργικά έργα μπορούν να αντιμετωπίζονται όπως τα δεδομένα χωρίς πίστωση είναι "πολύ ανησυχητική". Για την πλήρη αντιμετώπιση ενός τέτοιου προβλήματος, οι κανονισμοί που χρειάζεται η ΤΝ δεν υπάρχουν ακόμη στα βιβλία.

Πηγή: The Generative AI Battle Has a Fundamental Flaw