Μεγάλοι ιστότοποι λένε Όχι στη συλλογή δεδομένων της Apple για Τεχνητή Νοημοσύνη

30/08/2024 | |

Περίληψη του άρθρου:
Η Apple εισήγαγε το Applebot-Extended, επιτρέποντας στους ιστότοπους να ελέγχουν αν τα δεδομένα τους χρησιμοποιούνται για εκπαίδευση μοντέλων τεχνητής νοημοσύνης. Πολλοί μεγάλοι εκδότες και πλατφόρμες, όπως οι New York Times και το Facebook, έχουν ήδη αποκλείσει τη χρήση των δεδομένων τους. Αυτή η κίνηση αντανακλά μια σημαντική αλλαγή στην αντίληψη των web crawlers, που τώρα βρίσκονται στο επίκεντρο διαμάχης για την πνευματική ιδιοκτησία. Οι εκδότες μπορούν να μπλοκάρουν το Applebot-Extended μέσω του αρχείου robots.txt. Ωστόσο, η πλειοψηφία των ιστοτόπων δεν έχει ακόμη αποκλείσει το bot, είτε λόγω έλλειψης αντίρρησης είτε λόγω άγνοιας. Μερικοί εκδότες χρησιμοποιούν τον αποκλεισμό ως διαπραγματευτικό εργαλείο για εμπορικές συμφωνίες. Η κατάσταση παραμένει ρευστή, με τις εξελίξεις να αποτυπώνονται στα αρχεία robots.txt των ιστοτόπων.

Κύρια σημεία του άρθρου:

Η Apple εισήγαγε ένα εργαλείο που να επιτρέπει στους εκδότες ιστότοπων να αποκλείσουν τα δεδομένα τους από την εκπαίδευση μοντέλων AI, με πολλούς εξέχοντες εκδότες να αποχωρούν.
Οι μεγάλοι οργανισμοί όπως οι New York Times, Facebook και Wired έχουν επιλέξει να μην συμμετάσχουν στην εκπαίδευση AI της Apple.
Το νέο εργαλείο, το AppleBot-Extended, επιτρέπει στους ιδιοκτήτες ιστού να καθορίσουν ότι τα δεδομένα τους δεν πρέπει να χρησιμοποιούνται για την εκπαίδευση AI, ενώ παράλληλα επιτρέπουν στο αρχικό Applebot να σαρώσει τους ιστότοπούς τους.
Οι ιδιοκτήτες ιστότοπων μπορούν να εμποδίσουν την AppleBot-Extended με την ενημέρωση του αρχείου ρομπότ τους, το οποίο ρυθμίζει την πρόσβαση BOT σε ιστότοπους.
Μια πρόσφατη ανάλυση δείχνει ότι μόνο το 6-7% των ιστότοπων υψηλής κυκλοφορίας εμποδίζουν επί του παρόντος την AppleBot.
Περισσότερο από το ένα τέταρτο των ιστοσελίδων ειδήσεων ανέλυσε το μπλοκ Applebot-Extended σε σύγκριση με υψηλότερα ποσοστά αποκλεισμού για bots από OpenAI και Google.

Αναλυτικά το άρθρο:

Αυτό το καλοκαίρι, η Apple έδωσε στους ιστότοπους περισσότερο έλεγχο σχετικά με το αν η εταιρεία θα μπορούσε να εκπαιδεύσει τα μοντέλα τεχνητής νοημοσύνης της με τα δεδομένα τους. Μεγάλοι εκδότες και πλατφόρμες όπως οι New York Times και το Facebook έχουν ήδη επιλέξει να μην συμμετέχουν.

Λιγότερο από τρεις μήνες μετά την αθόρυβη παρουσίαση ενός εργαλείου από την Apple που επιτρέπει στους εκδότες να εξαιρεθούν από την εκπαίδευση τεχνητής νοημοσύνης της, ένας αριθμός σημαντικών ειδησεογραφικών ιστοσελίδων και κοινωνικών πλατφορμών έχουν αποδεχτεί την πρόταση της εταιρείας.
Το WIRED μπορεί να επιβεβαιώσει ότι το Facebook, το Instagram, το Craigslist, το Tumblr, οι New York Times, οι Financial Times, το Atlantic, το Vox Media, το δίκτυο USA Today και η μητρική εταιρεία του WIRED, η Condé Nast, είναι μεταξύ των πολλών οργανισμών που επιλέγουν να εξαιρέσουν τα δεδομένα τους από την εκπαίδευση τεχνητής νοημοσύνης της Apple. Η ψυχρή υποδοχή αντανακλά μια σημαντική αλλαγή τόσο στην αντίληψη όσο και στη χρήση των ρομποτικών ανιχνευτών που σάρωναν τον ιστό για δεκαετίες. Τώρα που αυτά τα bots παίζουν βασικό ρόλο στη συλλογή δεδομένων εκπαίδευσης τεχνητής νοημοσύνης, έχουν γίνει πεδίο διαμάχης για την πνευματική ιδιοκτησία και το μέλλον του διαδικτύου.

Αυτό το νέο εργαλείο, το Applebot-Extended, είναι μια επέκταση του bot ανίχνευσης ιστού της Apple που επιτρέπει συγκεκριμένα στους ιδιοκτήτες ιστοσελίδων να πουν στην Apple να μη χρησιμοποιήσει τα δεδομένα τους για εκπαίδευση τεχνητής νοημοσύνης. (Η Apple το αποκαλεί "έλεγχο χρήσης δεδομένων" σε μια ανάρτηση ιστολογίου που εξηγεί πώς λειτουργεί.) Το αρχικό Applebot, που ανακοινώθηκε το 2015, αρχικά σάρωνε το διαδίκτυο για να τροφοδοτήσει τα προϊόντα αναζήτησης της Apple όπως το Siri και το Spotlight. Πρόσφατα, όμως, ο σκοπός του Applebot έχει διευρυνθεί: Τα δεδομένα που συλλέγει μπορούν επίσης να χρησιμοποιηθούν για την εκπαίδευση των θεμελιωδών μοντέλων που δημιούργησε η Apple για τις προσπάθειές της στην τεχνητή νοημοσύνη.

Το Applebot-Extended είναι ένας τρόπος σεβασμού των δικαιωμάτων των εκδοτών, λέει η εκπρόσωπος της Apple, Nadine Haija. Στην πραγματικότητα δεν σταματά το αρχικό Applebot από το να σαρώνει τον ιστότοπο - κάτι που θα επηρέαζε τότε το πώς εμφανίζεται το περιεχόμενο αυτού του ιστότοπου στα προϊόντα αναζήτησης της Apple - αλλά αντ' αυτού εμποδίζει τη χρήση αυτών των δεδομένων για την εκπαίδευση των μεγάλων γλωσσικών μοντέλων της Apple και άλλων έργων γενετικής τεχνητής νοημοσύνης. Είναι, στην ουσία, ένα bot για την προσαρμογή του τρόπου λειτουργίας ενός άλλου bot.

Οι εκδότες μπορούν να μπλοκάρουν το Applebot-Extended ενημερώνοντας ένα αρχείο κειμένου στους ιστότοπούς τους γνωστό ως Πρωτόκολλο Εξαίρεσης Ρομπότ, ή robots.txt. Αυτό το αρχείο ρυθμίζει τον τρόπο με τον οποίο τα bots σαρώνουν τον ιστό εδώ και δεκαετίες - και όπως και τα ίδια τα bots, βρίσκεται τώρα στο επίκεντρο μιας ευρύτερης διαμάχης σχετικά με τον τρόπο εκπαίδευσης της τεχνητής νοημοσύνης. Πολλοί εκδότες έχουν ήδη ενημερώσει τα αρχεία robots.txt τους για να μπλοκάρουν τα bots τεχνητής νοημοσύνης από την OpenAI, την Anthropic και άλλους μεγάλους παίκτες της τεχνητής νοημοσύνης.

Το Robots.txt επιτρέπει στους ιδιοκτήτες ιστοσελίδων να μπλοκάρουν ή να επιτρέπουν bots κατά περίπτωση. Αν και δεν υπάρχει νομική υποχρέωση για τα bots να τηρούν αυτά που λέει το αρχείο κειμένου, η συμμόρφωση είναι ένας μακροχρόνιος κανόνας. (Ένας κανόνας που μερικές φορές αγνοείται: Νωρίτερα φέτος, μια έρευνα του WIRED αποκάλυψε ότι η startup τεχνητής νοημοσύνης Perplexity αγνοούσε το robots.txt και σάρωνε κρυφά ιστοσελίδες.)

Το Applebot-Extended είναι τόσο νέο που σχετικά λίγοι ιστότοποι το μπλοκάρουν ακόμη. Η startup ανίχνευσης τεχνητής νοημοσύνης Originality AI, με έδρα το Οντάριο του Καναδά, ανέλυσε ένα δείγμα 1.000 ιστοτόπων υψηλής επισκεψιμότητας την περασμένη εβδομάδα και διαπίστωσε ότι περίπου το 7 τοις εκατό - κυρίως ειδησεογραφικοί και μέσα ενημέρωσης - μπλόκαραν το Applebot-Extended. Αυτή την εβδομάδα, η υπηρεσία παρακολούθησης πρακτόρων τεχνητής νοημοσύνης Dark Visitors πραγματοποίησε τη δική της ανάλυση ενός άλλου δείγματος 1.000 ιστοτόπων υψηλής επισκεψιμότητας, διαπιστώνοντας ότι περίπου το 6 τοις εκατό είχε μπλοκάρει το bot. Συνολικά, αυτές οι προσπάθειες υποδηλώνουν ότι η συντριπτική πλειοψηφία των ιδιοκτητών ιστοσελίδων είτε δεν έχει αντίρρηση για τις πρακτικές εκπαίδευσης τεχνητής νοημοσύνης της Apple είτε απλά αγνοεί την επιλογή να μπλοκάρει το Applebot-Extended.

Σε μια ξεχωριστή ανάλυση που διεξήχθη αυτή την εβδομάδα, ο δημοσιογράφος δεδομένων Ben Welsh διαπίστωσε ότι λίγο περισσότερο από το ένα τέταρτο των ειδησεογραφικών ιστοσελίδων που ερεύνησε (294 από 1.167 κυρίως αγγλόφωνες, αμερικανικές δημοσιεύσεις) μπλοκάρουν το Applebot-Extended. Για σύγκριση, ο Welsh διαπίστωσε ότι το 53 τοις εκατό των ειδησεογραφικών ιστοσελίδων στο δείγμα του μπλοκάρουν το bot της OpenAI. Η Google παρουσίασε το δικό της bot ειδικό για την τεχνητή νοημοσύνη, το Google-Extended, τον περασμένο Σεπτέμβριο· μπλοκάρεται από σχεδόν το 43 τοις εκατό αυτών των ιστοσελίδων, ένα σημάδι ότι το Applebot-Extended μπορεί να είναι ακόμα κάτω από το ραντάρ. Όπως λέει ο Welsh στο WIRED, όμως, ο αριθμός έχει "σταδιακά αυξηθεί" από τότε που άρχισε να το εξετάζει.

Ο Welsh έχει ένα συνεχιζόμενο έργο παρακολούθησης του τρόπου με τον οποίο τα ειδησεογραφικά μέσα προσεγγίζουν τους μεγάλους πράκτορες τεχνητής νοημοσύνης. "Έχει εμφανιστεί ένας διχασμός μεταξύ των ειδησεογραφικών εκδοτών σχετικά με το αν θέλουν ή όχι να μπλοκάρουν αυτά τα bots," λέει. "Δεν έχω την απάντηση για το γιατί κάθε ειδησεογραφικός οργανισμός πήρε την απόφασή του. Προφανώς, μπορούμε να διαβάσουμε για πολλούς από αυτούς που κάνουν συμφωνίες αδειοδότησης, όπου πληρώνονται σε αντάλλαγμα για να αφήσουν τα bots να μπουν - ίσως αυτό να είναι ένας παράγοντας."

Πέρυσι, οι New York Times ανέφεραν ότι η Apple προσπαθούσε να συνάψει συμφωνίες τεχνητής νοημοσύνης με εκδότες. Έκτοτε, ανταγωνιστές όπως η OpenAI και η Perplexity έχουν ανακοινώσει συνεργασίες με διάφορα ειδησεογραφικά μέσα, κοινωνικές πλατφόρμες και άλλους δημοφιλείς ιστότοπους. "Πολλοί από τους μεγαλύτερους εκδότες στον κόσμο προφανώς ακολουθούν μια στρατηγική προσέγγιση," λέει ο ιδρυτής της Originality AI, Jon Gillham. "Νομίζω ότι σε ορισμένες περιπτώσεις, υπάρχει μια επιχειρηματική στρατηγική - όπως το να παρακρατούν τα δεδομένα μέχρι να τεθεί σε ισχύ μια συμφωνία συνεργασίας."

Υπάρχουν κάποια στοιχεία που υποστηρίζουν τη θεωρία του Gillham. Για παράδειγμα, οι ιστότοποι της Condé Nast συνήθιζαν να μπλοκάρουν τους ανιχνευτές ιστού της OpenAI. Αφού η εταιρεία ανακοίνωσε μια συνεργασία με την OpenAI την περασμένη εβδομάδα, ξεμπλόκαρε τα bots της εταιρείας. (Η Condé Nast αρνήθηκε να σχολιάσει επίσημα για αυτή την ιστορία.) Εν τω μεταξύ, η εκπρόσωπος του Buzzfeed, Juliana Clifton, είπε στο WIRED ότι η εταιρεία, η οποία επί του παρόντος μπλοκάρει το Applebot-Extended, βάζει κάθε bot ανίχνευσης ιστού τεχνητής νοημοσύνης που μπορεί να εντοπίσει στη λίστα αποκλεισμού της, εκτός αν ο ιδιοκτήτης του έχει συνάψει συνεργασία - συνήθως επί πληρωμή - με την εταιρεία, η οποία επίσης κατέχει το Huffington Post.

Επειδή το robots.txt πρέπει να υποστεί χειροκίνητη επεξεργασία, και υπάρχουν τόσοι πολλοί νέοι πράκτορες τεχνητής νοημοσύνης που κάνουν το ντεμπούτο τους, μπορεί να είναι δύσκολο να διατηρηθεί μια ενημερωμένη λίστα αποκλεισμού. "Οι άνθρωποι απλά δεν ξέρουν τι να μπλοκάρουν," λέει ο ιδρυτής του Dark Visitors, Gavin King. Το Dark Visitors προσφέρει μια δωρεάν υπηρεσία που ενημερώνει αυτόματα το robots.txt του ιστότοπου ενός πελάτη, και ο King λέει ότι οι εκδότες αποτελούν ένα μεγάλο μέρος των πελατών του λόγω ανησυχιών για τα πνευματικά δικαιώματα.

Το robots.txt μπορεί να φαίνεται σαν το αρχαϊκό έδαφος των διαχειριστών ιστοσελίδων - αλλά δεδομένης της τεράστιας σημασίας του για τους ψηφιακούς εκδότες στην εποχή της τεχνητής νοημοσύνης, είναι πλέον ο τομέας των στελεχών των μέσων ενημέρωσης. Το WIRED έχει μάθει ότι δύο διευθύνοντες σύμβουλοι από μεγάλες εταιρείες μέσων ενημέρωσης αποφασίζουν άμεσα ποια bots θα μπλοκάρουν.

Μερικά μέσα ενημέρωσης έχουν ρητά σημειώσει ότι μπλοκάρουν εργαλεία συλλογής δεδομένων τεχνητής νοημοσύνης επειδή δεν έχουν επί του παρόντος συνεργασίες με τους ιδιοκτήτες τους. "Μπλοκάρουμε το Applebot-Extended σε όλες τις ιδιοκτησίες της Vox Media, όπως έχουμε κάνει με πολλά άλλα εργαλεία συλλογής δεδομένων τεχνητής νοημοσύνης όταν δεν έχουμε εμπορική συμφωνία με το άλλο μέρος," λέει η Lauren Starke, ανώτερη αντιπρόεδρος επικοινωνίας της Vox Media. "Πιστεύουμε στην προστασία της αξίας του δημοσιευμένου έργου μας."

Άλλοι θα περιγράψουν το σκεπτικό τους μόνο με αόριστους - αλλά ευθείς! - όρους. "Η ομάδα αποφάσισε, σε αυτό το σημείο, ότι δεν υπήρχε αξία στο να επιτρέψουμε στο Applebot-Extended την πρόσβαση στο περιεχόμενό μας," λέει η Lark-Marie Antón, επικεφαλής επικοινωνιών της Gannett.

Εν τω μεταξύ, οι New York Times, που μηνύουν την OpenAI για παραβίαση πνευματικών δικαιωμάτων, είναι επικριτικοί απέναντι στη φύση εξαίρεσης του Applebot-Extended και των ομοίων του. "Όπως καθιστούν σαφές ο νόμος και οι όροι χρήσης των Times, η συλλογή ή η χρήση του περιεχομένου μας για εμπορικούς σκοπούς απαγορεύεται χωρίς την προηγούμενη γραπτή μας άδεια," λέει ο Charlie Stadtlander, διευθυντής εξωτερικών επικοινωνιών των NYT, σημειώνοντας ότι οι Times θα συνεχίσουν να προσθέτουν μη εξουσιοδοτημένα bots στη λίστα αποκλεισμού τους καθώς τα εντοπίζουν. "Σημαντικά, ο νόμος περί πνευματικών δικαιωμάτων εξακολουθεί να ισχύει είτε υπάρχουν είτε όχι τεχνικά μέτρα αποκλεισμού. Η κλοπή πνευματικής ιδιοκτησίας δεν είναι κάτι από το οποίο οι ιδιοκτήτες περιεχομένου πρέπει να εξαιρεθούν."
Δεν είναι σαφές αν η Apple είναι πιο κοντά στο να κλείσει συμφωνίες με εκδότες. Αν ή όταν το κάνει, όμως, οι συνέπειες οποιωνδήποτε ρυθμίσεων αδειοδότησης ή κοινής χρήσης δεδομένων μπορεί να είναι ορατές στα αρχεία robots.txt ακόμη και πριν ανακοινωθούν δημόσια.

"Το βρίσκω συναρπαστικό ότι μία από τις πιο σημαντικές τεχνολογίες της εποχής μας αναπτύσσεται, και η μάχη για τα δεδομένα εκπαίδευσής της διαδραματίζεται σε αυτό το πραγματικά ασαφές αρχείο κειμένου, δημόσια για όλους μας να το δούμε," λέει ο Gillham.

Πηγή: Major Sites Are Saying No to Apple’s AI Scraping