Τα εργαλεία τεχνητής νοημοσύνης εκπαιδεύονται κρυφά με πραγματικές εικόνες παιδιών

20/06/2024 | | |

Περίληψη Άρθρου:

Οι ακτιβιστές των ανθρωπίνων δικαιωμάτων αναφέρουν την ύπαρξη μιας βάση δεδομένων ανοιχτού κώδικα που χρησιμοποιεί πάνω από 170 εικόνες και προσωπικές πληροφορίες των παιδιών της Βραζιλίας χωρίς τη συγκατάθεσή τους για την εκπαίδευση της τεχνητής νοημοσύνης. Οι εικόνες ελήφθησαν από διάφορες πηγές στο διαδίκτυο, συμπεριλαμβανομένων των Mommy Blogs και του YouTube. Το Laion έχει αφαιρέσει τους συνδέσμους, αλλά υπάρχουν ακόμα ανησυχίες σχετικά με τις παραβιάσεις της ιδιωτικής ζωής. Απαιτούνται κανονισμοί για την αντιμετώπιση αυτών των ζητημάτων.

Κύρια σημεία του άρθρου:

Οι ακτιβιστές των ανθρωπίνων δικαιωμάτων αναφέρουν μια βάση δεδομένων ανοιχτού κώδικα που χρησιμοποιεί πάνω από 170 εικόνες και προσωπικές πληροφορίες των παιδιών της Βραζιλίας χωρίς συγκατάθεση.
Οι εικόνες προέρχονταν από Μommy Blogs , YouTube και άλλες πηγές στο διαδίκτυο.
Το Laion έχει αφαιρέσει τους συνδέσμους, αλλά τα πρόσωπα των οποίων χρησιμοποιήθηκαν οι φωτογραφίες τους εξακολουθούν να ανησυχούν για την ιδιωτικότητά τους.
Οι υποστηρικτές των ανθρωπίνων δικαιωμάτων ζητούν κανονισμούς για να εδραιωθεί το απόρρητο.
Τα δεδομένα εκπαίδευσης AI που συλλέχθηκαν από το LAION-5B περιείχαν υλικό σεξουαλικής κακοποίησης παιδιών.
Η ευθύνη για την προστασία των παιδιών και των γονέων τους από αυτού του είδους την κακοποίηση πέφτει στις κυβερνήσεις και τις ρυθμιστικές αρχές.

Αναλυτικά το άρθρο:

Ένα δημοφιλές σύνολο δεδομένων για την εκπαίδευση της τεχνητής νοημοσύνης "κλέβει και οπλοποιεί" τα πρόσωπα των παιδιών της Βραζιλίας χωρίς τη γνώση ή τη συγκατάθεσή τους, υποστηρίζουν ακτιβιστές για τα ανθρώπινα δικαιώματα.

Πάνω από 170 εικόνες και προσωπικά στοιχεία παιδιών από τη Βραζιλία έχουν επαναχρησιμοποιηθεί από ένα σύνολο δεδομένων ανοικτού κώδικα χωρίς τη γνώση ή τη συγκατάθεσή τους και έχουν χρησιμοποιηθεί για την εκπαίδευση τεχνητής νοημοσύνης, υποστηρίζει νέα έκθεση του Παρατηρητηρίου Ανθρωπίνων Δικαιωμάτων που δημοσιεύθηκε τη Δευτέρα.

Σύμφωνα με την έκθεση, οι εικόνες έχουν αποσπαστεί από περιεχόμενο που αναρτήθηκε μόλις το 2023 και από τα μέσα της δεκαετίας του 1990, πολύ πριν οποιοσδήποτε χρήστης του διαδικτύου μπορεί να προβλέψει ότι το περιεχόμενό του μπορεί να χρησιμοποιηθεί για την εκπαίδευση τεχνητής νοημοσύνης. Το Παρατηρητήριο Ανθρωπίνων Δικαιωμάτων υποστηρίζει ότι τα προσωπικά στοιχεία και οι φωτογραφίες αυτών των παιδιών συγκεντρώθηκαν από το αποθετήριο δεδομένων Common Crawl και στη συνέχεια οι διευθύνσεις URL που παρέπεμπαν σε αυτές συμπεριλήφθηκαν στο LAION-5B, ένα σύνολο δεδομένων που βοηθά στην εκπαίδευση αρχείων για νεοσύστατες επιχειρήσεις τεχνητής νοημοσύνης.

"Η ιδιωτική τους ζωή παραβιάζεται σε πρώτη φάση όταν η φωτογραφία τους σαρώνεται και ενσωματώνεται σε αυτά τα σύνολα δεδομένων. Και στη συνέχεια αυτά τα εργαλεία τεχνητής νοημοσύνης εκπαιδεύονται σε αυτά τα δεδομένα και επομένως μπορούν να δημιουργήσουν ρεαλιστικές εικόνες παιδιών", λέει η Hye Jung Han, ερευνήτρια για τα δικαιώματα των παιδιών και την τεχνολογία στο Human Rights Watch και η ερευνήτρια που βρήκε αυτές τις εικόνες. "Η τεχνολογία έχει αναπτυχθεί με τέτοιο τρόπο ώστε κάθε παιδί που έχει οποιαδήποτε φωτογραφία ή βίντεο του εαυτού του στο διαδίκτυο να κινδυνεύει πλέον, επειδή οποιοσδήποτε κακόβουλος φορέας θα μπορούσε να πάρει αυτή τη φωτογραφία και στη συνέχεια να χρησιμοποιήσει αυτά τα εργαλεία για να το χειραγωγήσει όπως θέλει".

Το LAION-5B βασίζεται στο Common Crawl -ένα αποθετήριο δεδομένων που δημιουργήθηκε με την επεξεργασία του διαδικτύου και τέθηκε στη διάθεση των ερευνητών- και έχει χρησιμοποιηθεί για την εκπαίδευση αρκετών μοντέλων τεχνητής νοημοσύνης, συμπεριλαμβανομένου του εργαλείου παραγωγής εικόνων Stable Diffusion της Stability AI. Δημιουργήθηκε από τη γερμανική μη κερδοσκοπική οργάνωση LAION, το σύνολο δεδομένων είναι ανοιχτά προσβάσιμο και περιλαμβάνει πλέον συνδέσμους σε περισσότερα από 5,85 δισεκατομμύρια ζεύγη εικόνων και λεζάντες, σύμφωνα με τον ιστότοπό του. Η LAION δηλώνει ότι έχει αφαιρέσει τους συνδέσμους προς τις εικόνες που επισημάνθηκαν από την Human Rights Watch.

Οι εικόνες των παιδιών που βρήκαν οι ερευνητές προέρχονταν από mommy blogs και άλλα προσωπικά, μητρικά ή γονικά blogs, καθώς και φωτογραφίες από βίντεο στο YouTube με μικρό αριθμό προβολών, που φαίνεται ότι ανεβαίνουν για να μοιραστούν με την οικογένεια και τους φίλους.

"Κοιτάζοντας μόνο το πλαίσιο του τόπου ανάρτησης, απολάμβαναν μια προσδοκία και ένα μέτρο ιδιωτικότητας", λέει η Hye. "Οι περισσότερες από αυτές τις εικόνες δεν ήταν δυνατόν να βρεθούν στο διαδίκτυο μέσω μιας αντίστροφης αναζήτησης εικόνας".

Ο εκπρόσωπος της LAION, Nathan Tyler, λέει ότι ο οργανισμός έχει ήδη αναλάβει δράση. "Το LAION-5B κατέβηκε ως απάντηση σε μια έκθεση του Στάνφορντ που βρήκε συνδέσμους στο σύνολο δεδομένων που παρέπεμπαν σε παράνομο περιεχόμενο στον δημόσιο ιστό", λέει, προσθέτοντας ότι ο οργανισμός συνεργάζεται επί του παρόντος με το "Ίδρυμα Internet Watch, το Καναδικό Κέντρο Προστασίας Παιδιών, το Στάνφορντ και το Παρατηρητήριο Ανθρωπίνων Δικαιωμάτων για να αφαιρέσει όλες τις γνωστές αναφορές σε παράνομο περιεχόμενο".

Οι όροι παροχής υπηρεσιών του YouTube δεν επιτρέπουν το scraping παρά μόνο υπό ορισμένες συνθήκες- αυτές οι περιπτώσεις φαίνεται να παραβιάζουν αυτές τις πολιτικές. "Ήμασταν ξεκάθαροι ότι η μη εξουσιοδοτημένη απόξεση περιεχομένου του YouTube αποτελεί παραβίαση των Όρων Παροχής Υπηρεσιών μας", λέει ο εκπρόσωπος του YouTube, Jack Maon, "και συνεχίζουμε να λαμβάνουμε μέτρα κατά αυτού του είδους της κατάχρησης".

Τον Δεκέμβριο, ερευνητές του Πανεπιστημίου του Στάνφορντ διαπίστωσαν ότι τα δεδομένα εκπαίδευσης AI που συλλέχθηκαν από το LAION-5B περιείχαν υλικό σεξουαλικής κακοποίησης παιδιών. Το πρόβλημα των ρητών deepfakes αυξάνεται ακόμη και μεταξύ των μαθητών στα σχολεία των ΗΠΑ, όπου χρησιμοποιούνται για να εκφοβίζουν συμμαθητές τους, ιδίως κορίτσια. Η Hye ανησυχεί ότι, πέρα από τη χρήση παιδικών φωτογραφιών για τη δημιουργία CSAM, ότι η βάση δεδομένων θα μπορούσε να αποκαλύψει δυνητικά ευαίσθητες πληροφορίες, όπως τοποθεσίες ή ιατρικά δεδομένα. Το 2022, μια καλλιτέχνιδα με έδρα τις ΗΠΑ βρήκε τη δική της εικόνα στο σύνολο δεδομένων LAION και συνειδητοποίησε ότι προερχόταν από τα προσωπικά της ιατρικά αρχεία.

"Τα παιδιά δεν θα πρέπει να ζουν με τον φόβο ότι οι φωτογραφίες τους μπορεί να κλαπούν και να χρησιμοποιηθούν ως όπλο εναντίον τους", λέει η Hye. Ανησυχεί ότι αυτό που κατάφερε να βρει είναι μόνο η αρχή. Ήταν ένα "μικροσκοπικό κομμάτι" των δεδομένων που εξέταζε η ομάδα της, λέει η ίδια - λιγότερο από το 0,0001% όλων των δεδομένων στο LAION-5B. Υποψιάζεται ότι είναι πιθανό παρόμοιες εικόνες να έχουν βρει το δρόμο τους στο σύνολο δεδομένων από όλο τον κόσμο.

Πέρυσι, μια γερμανική διαφημιστική καμπάνια χρησιμοποίησε ένα deepfake που δημιουργήθηκε από τεχνητή νοημοσύνη για να προειδοποιήσει τους γονείς να μην αναρτούν φωτογραφίες των παιδιών τους στο διαδίκτυο, τονίζοντας ότι οι εικόνες των παιδιών τους θα μπορούσαν να χρησιμοποιηθούν για να τα εκφοβίσουν ή να δημιουργήσουν CSAM. Αυτό όμως δεν αντιμετωπίζει το ζήτημα των εικόνων που έχουν ήδη δημοσιευτεί ή είναι δεκαετιών αλλά εξακολουθούν να υπάρχουν στο διαδίκτυο.

"Η αφαίρεση των συνδέσμων από ένα σύνολο δεδομένων LAION δεν αφαιρεί αυτό το περιεχόμενο από τον ιστό", λέει ο Tyler. Αυτές οι εικόνες μπορούν ακόμη να βρεθούν και να χρησιμοποιηθούν, ακόμη και αν αυτό δεν γίνεται μέσω του LAION. "Αυτό είναι ένα ευρύτερο και πολύ ανησυχητικό ζήτημα και ως μη κερδοσκοπικός, εθελοντικός οργανισμός, θα κάνουμε το χρέος μας για να βοηθήσουμε".

H Hye λέει ότι η ευθύνη για την προστασία των παιδιών και των γονέων τους από αυτού του είδους την κακοποίηση πέφτει στις κυβερνήσεις και τις ρυθμιστικές αρχές. Το νομοθετικό σώμα της Βραζιλίας εξετάζει επί του παρόντος νόμους για τη ρύθμιση της δημιουργίας deepfake και στις ΗΠΑ, η εκπρόσωπος Alexandria Ocasio-Cortez της Νέας Υόρκης έχει προτείνει το νόμο DEFIANCE Act, ο ο οποίος θα επιτρέπει στους ανθρώπους να υποβάλλουν μήνυση εάν μπορούν να αποδείξουν ότι ένα deepfake με το πρόσωπό τους έχει γίνει χωρίς συναίνεση.

"Νομίζω ότι τα παιδιά και οι γονείς τους δεν πρέπει να επωμιστούν την ευθύνη για την προστασία των παιδιών από μια τεχνολογία από την οποία είναι ουσιαστικά αδύνατο να προστατευτούν", λέει η Hye. "Δεν είναι δικό τους λάθος".

Πηγή:AI Tools Are Secretly Training on Real Images of Children

Τα εργαλεία τεχνητής νοημοσύνης εκπαιδεύονται κρυφά με πραγματικές εικόνες παιδιών

Newsletter