Οι επιστήμονες προειδοποιούν για την απειλή του διαδικτύου από τις εκπαιδευμένες τεχνητές νοημοσύνες από άλλες τεχνητές νοημοσύνες

17/07/2023 | | |

Περίληψη άρθρου:
Μια νέα μελέτη δείχνει ότι η ευρεία χρήση μεγάλων γλωσσικών μοντέλων (LLM), όπως το ChatGPT, για τη δημιουργία περιεχομένου στο διαδίκτυο θα μπορούσε να οδηγήσει σε υποβάθμιση της ποιότητας και της αξιοπιστίας του κειμένου που παράγεται από τεχνητή νοημοσύνη. Η μελέτη διαπίστωσε ότι η εκπαίδευση των επόμενων γενεών μοντέλων ΤΝ χρησιμοποιώντας δεδομένα που παράγονται από άλλα μοντέλα μπορεί να οδηγήσει σε "μη αναστρέψιμες ατέλειες" και ανεπιθύμητο περιεχόμενο. Οι ερευνητές ανακάλυψαν ότι αυτή η διαδικασία, γνωστή ως κατάρρευση του μοντέλου, κάνει τα μοντέλα να ξεχνούν την πραγματική υποκείμενη κατανομή των δεδομένων με την πάροδο του χρόνου. Προειδοποίησαν επίσης ότι η δηλητηρίαση δεδομένων, όπου οι επόμενες γενιές μοντέλων ΤΝ παρερμηνεύουν πληροφορίες και εισάγουν ψευδείς πληροφορίες, μπορεί να συμβεί σε πολύ μεγαλύτερη κλίμακα μετά την έλευση των LLM. Αυτό θα μπορούσε να οδηγήσει σε ένα φαινόμενο συσσώρευσης λαθών και παρερμηνείας της πραγματικότητας από τα μοντέλα που μαθαίνουν από τα παραγόμενα δεδομένα. Οι ερευνητές συνέστησαν τη λήψη μέτρων για την επισήμανση του περιεχομένου που παράγεται από την ΤΝ από το περιεχόμενο που παράγεται από τον άνθρωπο και τη διατήρηση των αρχικών δεδομένων που έχουν δημιουργηθεί από τον άνθρωπο για μελλοντική εκπαίδευση της ΤΝ. Τόνισαν τη σημασία της διατήρησης της πρόσβασης σε αρχικές πηγές δεδομένων και δεδομένων που δεν παράγονται από LLM για να διασφαλιστεί η συνεχής μάθηση με την πάροδο του χρόνου.

Κύρια σημεία του άρθρου:

Μια νέα μελέτη διαπίστωσε ότι η χρήση των δεδομένων εξόδου από συστήματα τεχνητής νοημοσύνης όπως το ChatGPT για την περαιτέρω εκπαίδευση των επόμενων γενεών μοντέλων τεχνητής νοημοσύνης θα μπορούσε να οδηγήσει σε "μη αναστρέψιμες ατέλειες" και ανεπιθύμητο περιεχόμενο.
Η εκτεταμένη χρήση των LLM για τη δημοσίευση περιεχομένου στο διαδίκτυο σε μεγάλη κλίμακα "θα μολύνει τη συλλογή δεδομένων για την εκπαίδευσή τους" και θα οδηγήσει σε "κατάρρευση του μοντέλου".
Τα μοντέλα τεχνητής νοημοσύνης που εκπαιδεύονται σε δεδομένα που παράγονται από τεχνητή νοημοσύνη έχουν αυξανόμενη παρουσία στο διαδίκτυο, και αυτό θα μπορούσε να οδηγήσει σε διόγκωση των λαθών και να αναγκάσει τα μοντέλα που μαθαίνουν από παραγόμενα δεδομένα να παρεξηγήσουν την πραγματικότητα.
Πρέπει να ληφθούν μέτρα για την επισήμανση του περιεχομένου που παράγεται από την ΤΝ από εκείνο που παράγεται από τον άνθρωπο, μαζί με τις προσπάθειες διατήρησης των αρχικών δεδομένων που έχουν δημιουργηθεί από τον άνθρωπο για μελλοντική εκπαίδευση της ΤΝ.

Αναλυτικά το άρθρο:
Οι μελλοντικές γενιές των chatbots τεχνητής νοημοσύνης που εκπαιδεύονται χρησιμοποιώντας δεδομένα από άλλες τεχνητές νοημοσύνες θα μπορούσαν να οδηγήσουν σε ένα καθοδικό σπιράλ ασυναρτησιών στο διαδίκτυο, σύμφωνα με μια νέα μελέτη.

Μεγάλα γλωσσικά μοντέλα (LLM) όπως το ChatGPT έχουν απογειωθεί στο διαδίκτυο, με πολλούς χρήστες να υιοθετούν την τεχνολογία για να παράγουν ένα εντελώς νέο οικοσύστημα κειμένων και εικόνων που δημιουργούνται από τεχνητή νοημοσύνη.

Όμως η χρήση των δεδομένων εξόδου από τέτοια συστήματα ΤΝ για την περαιτέρω εκπαίδευση επόμενων γενεών μοντέλων ΤΝ θα μπορούσε να οδηγήσει σε "μη αναστρέψιμες ατέλειες" και ανεπιθύμητο περιεχόμενο, σύμφωνα με μια νέα, ακόμη υπό αξιολόγηση μελέτη.

Τα μοντέλα AI, όπως το ChatGPT, εκπαιδεύονται χρησιμοποιώντας τεράστιες ποσότητες δεδομένων που αντλούνται από πλατφόρμες του διαδικτύου, τα οποία ως επί το πλείστον παρέμεναν μέχρι τώρα ανθρώπινα παραγόμενα.

Αλλά τα δεδομένα που δημιουργούνται από την τεχνητή νοημοσύνη με τη χρήση τέτοιων μοντέλων έχουν αυξανόμενη παρουσία στο διαδίκτυο.

Οι ερευνητές, μεταξύ των οποίων και εκείνοι από το Πανεπιστήμιο της Οξφόρδης στο Ηνωμένο Βασίλειο, προσπάθησαν να κατανοήσουν τι συμβαίνει όταν πολλές επόμενες γενιές ΤΝ εκπαιδεύονται η μία από την άλλη.

Διαπίστωσαν ότι η ευρεία χρήση των LLMs για τη δημοσίευση περιεχομένου στο διαδίκτυο σε μεγάλη κλίμακα "θα μολύνει τη συλλογή δεδομένων για την εκπαίδευσή τους" και θα οδηγήσει σε "κατάρρευση του μοντέλου".

"Ανακαλύπτουμε ότι η μάθηση από δεδομένα που παράγονται από άλλα μοντέλα προκαλεί κατάρρευση του μοντέλου - μια εκφυλιστική διαδικασία κατά την οποία, με την πάροδο του χρόνου, τα μοντέλα ξεχνούν την πραγματική υποκείμενη κατανομή των δεδομένων", γράφουν οι επιστήμονες στη μελέτη, που δημοσιεύτηκε ως προδημοσίευση στο arXiv.

Τα νέα ευρήματα υποδηλώνουν ότι υπάρχει ένα "πλεονέκτημα του πρώτου παίκτη" όταν πρόκειται για την εκπαίδευση των LLM.

Οι επιστήμονες παρομοιάζουν αυτή την αλλαγή με αυτό που συμβαίνει όταν τα μοντέλα τεχνητής νοημοσύνης εκπαιδεύονται σε μουσική που δημιουργείται από ανθρώπινους συνθέτες και παίζεται από ανθρώπινους μουσικούς. Η επακόλουθη παραγωγή ΤΝ εκπαιδεύει στη συνέχεια άλλα μοντέλα, οδηγώντας σε μείωση της ποιότητας της μουσικής.

Καθώς οι επόμενες γενιές μοντέλων ΤΝ είναι πιθανό να συναντήσουν δεδομένα χαμηλότερης ποιότητας στην πηγή τους, μπορεί να αρχίσουν να παρερμηνεύουν τις πληροφορίες εισάγοντας ψευδείς πληροφορίες σε μια διαδικασία που οι επιστήμονες αποκαλούν "δηλητηρίαση δεδομένων".

Προειδοποίησαν ότι η κλίμακα στην οποία μπορεί να συμβεί η δηλητηρίαση δεδομένων αλλάζει δραστικά μετά την έλευση των LLM.

Λίγες μόνο επαναλήψεις δεδομένων μπορούν να οδηγήσουν σε σημαντική υποβάθμιση, ακόμη και όταν τα αρχικά δεδομένα διατηρούνται, δήλωσαν οι επιστήμονες.

Και με την πάροδο του χρόνου, αυτό θα μπορούσε να οδηγήσει στην επιδείνωση των λαθών και να αναγκάσει τα μοντέλα που μαθαίνουν από τα παραγόμενα δεδομένα να παρεξηγήσουν την πραγματικότητα.

"Αυτό με τη σειρά του προκαλεί στο μοντέλο να αντιλαμβάνεται λανθασμένα το υποκείμενο έργο μάθησης", δήλωσαν οι ερευνητές.

Οι επιστήμονες προειδοποίησαν ότι πρέπει να ληφθούν μέτρα για την επισήμανση του περιεχομένου που παράγεται από την τεχνητή νοημοσύνη από εκείνο που παράγεται από τον άνθρωπο, μαζί με τις προσπάθειες διατήρησης των αρχικών δεδομένων που έχουν δημιουργηθεί από τον άνθρωπο για μελλοντική εκπαίδευση της τεχνητής νοημοσύνης.

"Για να διασφαλιστεί ότι η μάθηση διατηρείται για μεγάλο χρονικό διάστημα, πρέπει να διασφαλιστεί ότι η πρόσβαση στην αρχική πηγή δεδομένων διατηρείται και ότι τα πρόσθετα δεδομένα που δεν έχουν παραχθεί από LLMs παραμένουν διαθέσιμα με την πάροδο του χρόνου", έγραψαν στη μελέτη.

"Διαφορετικά, μπορεί να γίνει όλο και πιο δύσκολο να εκπαιδεύσουμε νεότερες εκδόσεις των LLM χωρίς πρόσβαση σε δεδομένα που ανιχνεύθηκαν από το Διαδίκτυο πριν από τη μαζική υιοθέτηση της τεχνολογίας, ή άμεση πρόσβαση σε δεδομένα που παράγονται από ανθρώπους σε κλίμακα".

Πηγή: Scientists warn of threat to internet from AI-trained AIs

Οι επιστήμονες προειδοποιούν για την απειλή του διαδικτύου από τις εκπαιδευμένες τεχνητές νοημοσύνες από άλλες τεχνητές νοημοσύνες

Newsletter