Το ChatGPT αποκόπτει τις μη-αγγλικές γλώσσες από την επανάσταση της AI

03/07/2023 | |

Περίληψη άρθρου:
Το άρθρο αυτό εξετάζει τους περιορισμούς των γλωσσικών μοντέλων ΤΝ, ιδίως σε μη αγγλικές γλώσσες, και τις πιθανές συνέπειες αυτής της προκατάληψης. Οι ερευνητές έχουν διαπιστώσει ότι τα γλωσσικά μοντέλα όπως το ChatGPT είναι καλύτερα στη μετάφραση άλλων γλωσσών στα αγγλικά από ό,τι αντίστροφα, και δυσκολεύονται με την ανάμειξη γλωσσών εντός του ίδιου εκφωνήματος. Αυτό μπορεί να οδηγήσει σε ενίσχυση της κυριαρχίας της αγγλικής γλώσσας στο παγκόσμιο εμπόριο και την καινοτομία. Το άρθρο υπογραμμίζει τις ανησυχίες των ερευνητών ΤΝ σχετικά με την έλλειψη ευχέρειας και ικανότητας των chatbots σε άλλες γλώσσες εκτός της αγγλικής, η οποία μπορεί να εμποδίσει την ποικιλομορφία και την καινοτομία. Γίνεται έκκληση για την αντιμετώπιση αυτού του γλωσσικού χάσματος από την ΤΝ και την επέκταση των πλεονεκτημάτων της σε ένα ευρύτερο φάσμα γλωσσών και πολιτισμών. Το άρθρο αναφέρει επίσης την ανάγκη εταιρείες όπως η OpenAI και η Google να εξηγούν δημόσια τα δεδομένα εκπαίδευσής τους και να παρακολουθούν την πρόοδο στην πολύγλωσση υποστήριξη. Οι ερευνητές εργάζονται για τη δημιουργία νέων συνόλων δεδομένων για την ανάπτυξη πραγματικά πολύγλωσσων μοντέλων. Ωστόσο, η πρόκληση έγκειται στον τεράστιο όγκο δεδομένων αγγλικού κειμένου σε σύγκριση με άλλες γλώσσες. Το άρθρο προτείνει τη δημιουργία συνθετικών δεδομένων ή τη χρήση ενδιάμεσων γλωσσών για τη γεφύρωση των μεταφράσεων ως πιθανές λύσεις. Συνολικά, το άρθρο υπογραμμίζει τη σημασία της αντιμετώπισης της γλωσσικής προκατάληψης στην ΤΝ, ώστε να διασφαλιστεί η ισότιμη πρόσβαση στις πληροφορίες και να αποφευχθεί η περαιτέρω ενίσχυση της κυριαρχίας της αγγλικής γλώσσας.

Κύρια σημεία του άρθρου:

Τα chatbots της τεχνητής νοημοσύνης μιλούν λιγότερο άπταιστα άλλες γλώσσες, πλην της αγγλικής, απειλώντας να ενισχύσουν τις υπάρχουσες προκαταλήψεις στο παγκόσμιο εμπόριο και την καινοτομία.
Οι ερευνητές έχουν εντοπίσει πιθανές διορθώσεις, αλλά τα κυρίως αγγλόφωνα chatbots συνεχίζουν να εξαπλώνονται.
Τα μεγάλα γλωσσικά μοντέλα δουλεύουν με λέξεις χρησιμοποιώντας στατιστικά μοτίβα που μαθαίνονται από δισεκατομμύρια λέξεις κειμένου που έχουν αρπάξει από το διαδίκτυο, βιβλία και άλλες πηγές, οι οποίες είναι ως επί το πλείστον στα αγγλικά και τα κινέζικα.
Οι ερευνητές επισημαίνουν τις αδυναμίες των γλωσσικών μοντέλων και δημιουργούν νέα σύνολα δεδομένων με μη αγγλικό κείμενο για να προσπαθήσουν να επιταχύνουν την ανάπτυξη πραγματικά πολύγλωσσων μοντέλων.

Αναλυτικά το άρθρο:
Η επιστήμονας πληροφορικής Pascale Fung οραματίζεται ένα μέλλον όπου οι γλωσσικοί βοηθοί τεχνητής νοημοσύνης όπως το ChatGPT μπορούν να γεφυρώσουν τα γλωσσικά εμπόδια, επιτρέποντας στους ιδιοκτήτες ινδονησιακών καταστημάτων να προσεγγίσουν νέους αγοραστές παραθέτοντας τα προϊόντα τους στο διαδίκτυο στα αγγλικά. Ωστόσο, η Fung αναγνωρίζει την προκατάληψη στο όραμά της, αναγνωρίζοντας ότι λίγοι Αμερικανοί έχουν κίνητρο να μάθουν μια άλλη γλώσσα και ότι οι μη αγγλόφωνοι συχνά τιμωρούνται επαγγελματικά. Είναι μέλος μιας παγκόσμιας κοινότητας ερευνητών τεχνητής νοημοσύνης που δοκιμάζουν τις γλωσσικές δεξιότητες των chatbots και κρούουν τον κώδωνα του κινδύνου για τις σημαντικά λιγότερες ικανότητές τους σε γλώσσες εκτός της αγγλικής. Η Fung ελπίζει ότι η τεχνητή νοημοσύνη μπορεί να αλλάξει αυτή την προκατάληψη αντί να ενισχύσει περαιτέρω την πρωτοκαθεδρία της αγγλικής γλώσσας.

Οι ερευνητές έχουν εκφράσει ανησυχίες σχετικά με την προκατάληψη προς τα αγγλικά και τους αγγλόφωνους στα chatbots, τα οποία τροφοδοτούνται από λογισμικό AI. Τα bots δυσκολεύονται να ξαναγράψουν τα αγγλικά σε μη αγγλικές γλώσσες, ιδίως σε εκείνες με μη λατινική γραφή, όπως τα κορεατικά. Αν και μπορούν να μεταφράζουν άλλες γλώσσες στα αγγλικά, δεν μπορούν να αναμειγνύουν με ευχέρεια γλώσσες στην ίδια έκφραση. Μελέτες έχουν δείξει ότι αυτά τα συστήματα είναι πιο πιθανό να κατασκευάζουν πληροφορίες και έχουν κακές επιδόσεις στην απάντηση πραγματικών ερωτήσεων ή στην περίληψη σύνθετων κειμένων σε μη αγγλικές γλώσσες. Τουλάχιστον 15 ερευνητικές εργασίες έχουν αναρτηθεί φέτος στον διακομιστή προτυπωμάτων arXiv.org, οι οποίες εξετάζουν την πολυγλωσσία των μεγάλων γλωσσικών μοντέλων που τροφοδοτούν εμπειρίες όπως το ChatGPT. Οι ερευνητές φοβούνται ότι αν οι άνθρωποι δεν σκέφτονται την κουλτούρα και την ταυτότητά τους, η ποικιλομορφία και η καινοτομία θα εξοντωθούν.

Η αυξανόμενη χρήση των chatbots για επιχειρηματικές εργασίες θα μπορούσε να εδραιώσει περαιτέρω την κυριαρχία της αγγλικής γλώσσας στην παγκόσμια οικονομία, σύμφωνα με το MIT Technology Review. Ενώ τα συστήματα αυτά μπορούν να προσφέρουν οφέλη, όπως βοήθεια στη σύνταξη μηνυμάτων ηλεκτρονικού ταχυδρομείου ή στον προγραμματισμό λογισμικού, περιορίζονται σε μεγάλο βαθμό στην αγγλική γλώσσα. Ο διευθύνων σύμβουλος της OpenAI Sam Altman έχει υποστηρίξει ότι θέλει να επεκτείνει την εμβέλεια του συστήματος ChatGPT της εταιρείας του, αλλά ο γερουσιαστής της Καλιφόρνιας Alex Padilla προέτρεψε τους προγραμματιστές να κάνουν περισσότερα για να διασφαλίσουν ότι η εν λόγω τεχνολογία προσφέρει οφέλη σε μια ευρύτερη ομάδα ανθρώπων, ανεξάρτητα από τη γλώσσα τους.

Το προηγμένο γλωσσικό μοντέλο του OpenAI, το GPT-4, είναι προκατειλημμένο προς τα αγγλικά και στερείται πολυγλωσσικής υποστήριξης, σύμφωνα με τους επικριτές. Η πλειονότητα των υποκείμενων δεδομένων που χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου προήλθε από την αγγλική γλώσσα και οι προσπάθειες του OpenAI επικεντρώθηκαν στην τελειοποίηση και τη μελέτη της απόδοσής του στην αγγλική γλώσσα με αμερικανοκεντρική οπτική γωνία. Η OpenAI έχει επικριθεί για το γεγονός ότι δεν αξιολόγησε διεξοδικά τις δυνατότητες του GPT-4 σε άλλες γλώσσες πριν το κυκλοφορήσει. Οι ερευνητές ζητούν από τις εταιρείες να εξηγούν δημόσια τα δεδομένα εκπαίδευσης και να παρακολουθούν την πρόοδό τους όσον αφορά την πολυγλωσσική υποστήριξη. Τα μοντέλα που εκπαιδεύονται κυρίως σε σύνολα δεδομένων αγγλικού κειμένου μπορούν να εντοπίσουν ικανότητες σε άλλες γλώσσες, αλλά οι γνώσεις τους δεν είναι απαραίτητα ολοκληρωμένες. Αυτό μπορεί να έχει ως αποτέλεσμα την έλλειψη αποχρώσεων και συμφραζομένων, οδηγώντας σε λάθη, όπως το να συνδέουν τη λέξη "περιστέρι" με την ειρήνη σε όλες τις γλώσσες, παρόλο που μπορεί να αποτελεί προσβολή σε ορισμένες γλώσσες.

Το Bing chat της Microsoft, το οποίο βασίζεται στο γλωσσικό μοντέλο GPT-4, έχει βρεθεί ότι έχει περιφερειακές και γλωσσικές προκαταλήψεις στις απαντήσεις. Εμπειρογνώμονες βελτιστοποίησης μηχανών αναζήτησης ανέφεραν ότι το chatbot παρείχε κατάλληλους όρους για αθλητές σε αγγλόφωνες χώρες, αλλά απέτυχε να το κάνει για διάφορες ισπανόφωνες περιοχές. Ομοίως, όταν ρωτήθηκε για την τοποθεσία μιας τηλεοπτικής εκπομπής, η συνομιλία Bing προσδιόρισε σωστά την Ταϊλάνδη στα αγγλικά αλλά παρείχε μόνο "κάπου στην Ασία" όταν μεταφράστηκε στα ισπανικά. Οι ειδικοί προτείνουν ότι οι χρήστες μπορούν να αντιμετωπίσουν τις κακές απαντήσεις προσθέτοντας πιο λεπτομερείς οδηγίες στα ερωτήματά τους. Ωστόσο, χωρίς ρητή καθοδήγηση, τα chatbots τείνουν να καταφεύγουν στην αγγλική ομιλία και τις προοπτικές. Η προκατάληψη προς τα αγγλικά είναι εμφανής και σε άλλες γλώσσες, όπως διαπίστωσε η Veruska Anconitano όταν κάνοντας ερωτήσεις στη συνομιλία Bing στα ιταλικά, οι απαντήσεις έβγαιναν στα αγγλικά, εκτός αν προσδιόριζε "Answer me in Italian", ενώ μια άλλη συνομιλία υπέθεσε ότι ήθελε μια ιαπωνική προτροπή μεταφρασμένη στα αγγλικά, αντί να συνεχίσει τη συζήτηση στα ιαπωνικά.

Μια μελέτη διαπίστωσε ότι η παραγωγή καλύτερων απαντήσεων για κινεζικές ερωτήσεις απαιτούσε να τις θέτουν στα αγγλικά και όχι στα κινεζικά. Μια άλλη μελέτη διαπίστωσε ότι το ChatGPT δυσκολευόταν να μεταφράσει προτάσεις από τα ινδονησιακά στα αγγλικά, γεγονός που υποδηλώνει ότι η ευχέρεια του bot είναι περιορισμένη και μπορεί να είναι αναξιόπιστη. Οι περιορισμοί των γλωσσικών μοντέλων σημαίνουν ότι είναι δύσκολο να τα εμπιστευτεί κανείς πέρα από τα αγγλικά και ίσως τα κινεζικά. Ως αποτέλεσμα, η χρήση της τεχνητής νοημοσύνης για την επιτάχυνση διαδικασιών όπως ο προγραμματισμός γάμου θα μπορούσε να οδηγήσει σε λάθη και παρεξηγήσεις, ιδίως σε πολιτισμούς όπου η παράδοση και η τελετή έχουν μεγάλη αξία.

Ενώ γλωσσικά μοντέλα όπως το Bard της Google έχουν κάνει σημαντικά βήματα στην επεξεργασία φυσικής γλώσσας, απέχουν ακόμη πολύ από το να κατακτήσουν μη αγγλικές γλώσσες. Αυτά τα μοντέλα συχνά στερούνται δεδομένων εκπαίδευσης για γλώσσες εκτός της αγγλικής και δυσκολεύονται να αναγνωρίσουν πολιτισμικές αποχρώσεις και περιφερειακές παραλλαγές. Ωστόσο, οι ερευνητές εργάζονται για τη δημιουργία νέων συνόλων δεδομένων μη αγγλικού κειμένου για την επιτάχυνση της ανάπτυξης πολυγλωσσικών μοντέλων. Η Google καταβάλλει επίσης προσπάθειες για να αυξήσει τα δεδομένα εκπαίδευσης μη αγγλικών κειμένων για το γλωσσικό μοντέλο PaLM 2, το οποίο αναγνωρίζει ιδιωματισμούς σε διάφορες γλώσσες και καθαρίζει τη γραμματική στα ινδονησιακά. Ωστόσο, το PaLM 2 είναι προς το παρόν διαθέσιμο μόνο για επιλεγμένες γλώσσες σε υπηρεσίες για καταναλωτές, όπως chatbots και βοηθοί γραφής, λόγω περιορισμών στις δοκιμές. Οι ερευνητές ζητούν να υπάρξει συνεργασία με τη μεγάλη τεχνολογία για τη βελτίωση της ανάπτυξης πολύγλωσσων γλωσσικών μοντέλων.

Η παραγωγή συνθετικών δεδομένων, η χρήση ενδιάμεσων γλωσσών και η εφαρμογή αυστηρότερων ελέγχων στα σύνολα δεδομένων αποτελούν πιθανές λύσεις στην πρόκληση της δημιουργίας υψηλής ποιότητας μη-αγγλικών γλωσσικών μοντέλων στην ΤΝ. Ο μεγάλος και συνεχώς αυξανόμενος όγκος του διαθέσιμου αγγλικού κειμένου καθιστά τη συλλογή περισσότερων δεδομένων μάλλον ανεπαρκή. Ωστόσο, η δημιουργία συνθετικών δεδομένων και η χρήση ενδιάμεσων γλωσσών, όπως τα Mandarin ή τα Αγγλικά, για τη γεφύρωση μεταφράσεων μεταξύ γλωσσών με περιορισμένο εκπαιδευτικό υλικό θα μπορούσε να είναι εφικτή. Οι ερευνητές προτείνουν επίσης να δοθεί μεγαλύτερη προσοχή στα σύνολα δεδομένων που τροφοδοτούνται στα μοντέλα τεχνητής νοημοσύνης και στον αντίκτυπό τους στη διαδικασία κατασκευής. Επιπλέον, η εφαρμογή ελέγχων για την επίτευξη συγκεκριμένων ορίων περιεχομένου για κάθε γλώσσα θα μπορούσε να βελτιώσει την ποιότητα των μη αγγλικών αποτελεσμάτων. Ορισμένοι εμπειρογνώμονες έχουν εγκαταλείψει τη χρήση εργαλείων που γεννήθηκαν από μεγάλα γλωσσικά μοντέλα για οποιονδήποτε σκοπό πέραν της έρευνας, λόγω της έλλειψης σπιρτάδας σε μη αγγλικές απαντήσεις.

Πηγή: ChatGPT Is Cutting Non-English Languages Out of the AI Revolution