Οι επιστήμονες δηλώνουν ότι το ποσοστό εντοπισμού του περιεχομένου του ChatGPT είναι >99%

03/07/2023 | |

Περίληψη άρθρου:
Ερευνητές από το Πανεπιστήμιο του Κάνσας ανέπτυξαν έναν αλγόριθμο που μπορεί να ανιχνεύει επιστημονικές εργασίες που παράγονται από το γλωσσικό μοντέλο ChatGPT με ακρίβεια 99%. Οι επιστήμονες συνέταξαν σύνολα δεδομένων για να εκπαιδεύσουν και να δοκιμάσουν τον αλγόριθμό τους σε στυλ γραφής τυπικό για ερευνητικές εργασίες που δημοσιεύονται σε ακαδημαϊκά περιοδικά. Χρησιμοποίησαν 64 άρθρα "προοπτικών", ένα συγκεκριμένο στυλ άρθρου περιοδικού, από διάφορα πεδία και ζήτησαν από το ChatGPT να δημιουργήσει παραγράφους που περιγράφουν την ίδια έρευνα για να δημιουργήσουν 128 ψεύτικα άρθρα. Συνολικά 1.276 παράγραφοι παρήχθησαν από την τεχνητή νοημοσύνη και χρησιμοποιήθηκαν για την εκπαίδευση του ταξινομητή. Η ομάδα συνέταξε δύο ακόμη σύνολα δεδομένων, το καθένα από τα οποία περιείχε 30 πραγματικά άρθρα με προοπτικές και 60 άρθρα που γράφτηκαν με ChatGPT, συνολικά 1.210 παραγράφους για να δοκιμάσει τον αλγόριθμο. Τα αρχικά πειράματα ανέφεραν ότι ο ταξινομητής ήταν σε θέση να διακρίνει μεταξύ πραγματικής επιστημονικής γραφής από ανθρώπους και εγγράφων που δημιουργήθηκαν από τεχνητή νοημοσύνη στο 100% του χρόνου.

Κύρια σημεία του άρθρου:

Οι ερευνητές ανέπτυξαν έναν αλγόριθμο μηχανικής μάθησης για τον εντοπισμό επιστημονικών εργασιών που παράγονται από το ChatGPT με ακρίβεια άνω του 99 τοις εκατό.
Το λογισμικό αναπτύχθηκε για να ανιχνεύει κείμενο που παράγεται από τεχνητή νοημοσύνη στο ύφος των ερευνητικών εργασιών που γίνονται δεκτές και δημοσιεύονται από ακαδημαϊκά περιοδικά.
Ο αλγόριθμος εστιάζει σε μια σειρά από υφολογικές διαφορές μεταξύ της ανθρώπινης και της τεχνητής νοημοσύνης.
Δεν είναι σαφές πόσο ανθεκτικός είναι ο αλγόριθμος απέναντι σε μελέτες που έχουν υποστεί ελαφρά επεξεργασία από ανθρώπους παρά το γεγονός ότι έχουν γραφτεί κυρίως από ChatGPT ή απέναντι σε πραγματικές εργασίες από άλλα επιστημονικά περιοδικά.

Αναλυτικά το άρθρο:
Οι ακαδημαϊκοί έχουν προφανώς εκπαιδεύσει έναν αλγόριθμο μηχανικής μάθησης για τον εντοπισμό επιστημονικών εγγράφων που παράγονται από το ChatGPT και ισχυρίζονται ότι το λογισμικό έχει ακρίβεια πάνω από 99 τοις εκατό.

Τα παραγωγικά μοντέλα τεχνητής νοημοσύνης έχουν βελτιωθεί δραματικά στο να μιμούνται την ανθρώπινη γραφή σε σύντομο χρονικό διάστημα, καθιστώντας δύσκολο για τους ανθρώπους να διακρίνουν αν το κείμενο έχει παραχθεί από μηχανή ή από άνθρωπο. Οι δάσκαλοι και οι καθηγητές έχουν εκφράσει ανησυχίες ότι οι φοιτητές που χρησιμοποιούν τα εργαλεία διαπράττουν λογοκλοπή ή προφανώς αντιγράφουν χρησιμοποιώντας κώδικα που δημιουργείται από μηχανές.

Ωστόσο, το λογισμικό που έχει σχεδιαστεί για την ανίχνευση κειμένου που παράγεται από τεχνητή νοημοσύνη είναι συχνά αναξιόπιστο. Οι ειδικοί έχουν προειδοποιήσει κατά της χρήσης αυτών των εργαλείων για την αξιολόγηση εργασιών.

Μια ομάδα ερευνητών με επικεφαλής το Πανεπιστήμιο του Κάνσας σκέφτηκε ότι θα ήταν χρήσιμο να αναπτύξει έναν τρόπο ανίχνευσης επιστημονικών κειμένων που δημιουργούνται από τεχνητή νοημοσύνη - συγκεκριμένα γραμμένων στο ύφος των ερευνητικών εργασιών που συνήθως γίνονται δεκτές και δημοσιεύονται από ακαδημαϊκά περιοδικά.

"Αυτή τη στιγμή, υπάρχουν μερικά αρκετά κραυγαλέα προβλήματα με τη συγγραφή της τεχνητής νοημοσύνης", δήλωσε η Heather Desaire, πρώτη συγγραφέας της εργασίας που δημοσιεύθηκε στο περιοδικό Cell Reports Physical Science και καθηγήτρια χημείας στο Πανεπιστήμιο του Κάνσας, σε δήλωσή της. "Ένα από τα μεγαλύτερα προβλήματα είναι ότι συγκεντρώνει κείμενο από πολλές πηγές και δεν υπάρχει κανενός είδους έλεγχος ακρίβειας - είναι κάτι σαν το παιχνίδι Δύο αλήθειες και ένα ψέμα".

Η Desaire και οι συνάδελφοί της συνέταξαν σύνολα δεδομένων για να εκπαιδεύσουν και να δοκιμάσουν έναν αλγόριθμο για την ταξινόμηση εγγράφων που γράφτηκαν από επιστήμονες και από ChatGPT. Επέλεξαν 64 άρθρα "προοπτικών" - ένα συγκεκριμένο στυλ άρθρου που δημοσιεύεται σε επιστημονικά περιοδικά - που αντιπροσωπεύουν ένα ευρύ φάσμα θεμάτων από τη βιολογία έως τη φυσική, και ζήτησαν από το ChatGPT να δημιουργήσει παραγράφους που περιγράφουν την ίδια έρευνα για να δημιουργήσουν 128 ψεύτικα άρθρα. Συνολικά 1.276 παράγραφοι παρήχθησαν από την ΤΝ και χρησιμοποιήθηκαν για την εκπαίδευση του ταξινομητή.

Στη συνέχεια, η ομάδα συνέταξε δύο ακόμη σύνολα δεδομένων, καθένα από τα οποία περιείχε 30 πραγματικά άρθρα με προοπτικές και 60 άρθρα που γράφτηκαν με ChatGPT, συνολικά 1.210 παραγράφους για να δοκιμάσει τον αλγόριθμο.

Τα αρχικά πειράματα ανέφεραν ότι ο ταξινομητής ήταν σε θέση να διακρίνει μεταξύ πραγματικής επιστημονικής γραφής από ανθρώπους και άρθρων που δημιουργήθηκαν από τεχνητή νοημοσύνη σε ποσοστό 100 τοις εκατό. Η ακρίβεια σε επίπεδο μεμονωμένης παραγράφου, ωστόσο, μειώθηκε ελαφρώς - στο 92 τοις εκατό, όπως υποστηρίζεται.

Πιστεύουν ότι ο ταξινομητής τους είναι αποτελεσματικός, επειδή εντοπίζει μια σειρά από υφολογικές διαφορές μεταξύ ανθρώπινης και τεχνητής νοημοσύνης γραφής. Οι επιστήμονες είναι πιο πιθανό να έχουν πλουσιότερο λεξιλόγιο και να γράφουν μεγαλύτερες παραγράφους που περιέχουν πιο διαφορετικές λέξεις από τις μηχανές. Χρησιμοποιούν επίσης σημεία στίξης όπως ερωτηματικά, παρενθέσεις, άνω και κάτω τελεία πιο συχνά από το ChatGPT, εκτός από τα σημεία ομιλίας που χρησιμοποιούνται για τα εισαγωγικά.

Το ChatGPT είναι επίσης λιγότερο ακριβές και δεν παρέχει συγκεκριμένες πληροφορίες για αριθμούς ή άλλα ονόματα επιστημόνων σε σύγκριση με τους ανθρώπους. Οι πραγματικές επιστημονικές εργασίες χρησιμοποιούν επίσης πιο διφορούμενη γλώσσα - όπως τα "ωστόσο", "αλλά", "αν και" καθώς και τα "αυτό" και "επειδή".

Τα αποτελέσματα, ωστόσο, θα πρέπει να λαμβάνονται με επιφύλαξη. Δεν είναι σαφές πόσο ανθεκτικός είναι ο αλγόριθμος απέναντι σε μελέτες που έχουν υποστεί ελαφρά επεξεργασία από ανθρώπους, παρά το γεγονός ότι έχουν γραφτεί κυρίως από ChatGPT, ή απέναντι σε πραγματικές εργασίες από άλλα επιστημονικά περιοδικά.

"Δεδομένου ότι ο βασικός στόχος αυτής της εργασίας ήταν μια μελέτη απόδειξης της έννοιας, το πεδίο εφαρμογής της εργασίας ήταν περιορισμένο και απαιτούνται επακόλουθες μελέτες για να προσδιοριστεί η έκταση της δυνατότητας εφαρμογής αυτής της προσέγγισης", γράφουν οι ερευνητές στο έγγραφό τους. "Για παράδειγμα, το μέγεθος του συνόλου δοκιμών (180 έγγραφα, ∼1.200 παράγραφοι) είναι μικρό και ένα μεγαλύτερο σύνολο δοκιμών θα καθόριζε με μεγαλύτερη σαφήνεια την ακρίβεια της μεθόδου σε αυτή την κατηγορία παραδειγμάτων γραφής".

Το Register ζήτησε από την Desaire να σχολιάσει την έρευνα.

Πηγή: Scientists claim >99 percent identification rate of ChatGPT content