Απόδοση του ChatGPT στο USMLE: Ιατρική εκπαίδευση με τη βοήθεια τεχνητής νοημοσύνης με τη χρήση μεγάλων γλωσσικών μοντέλων

21/07/2023 | |

Περίληψη άρθρου:
Το παρόν δημοσίευμα εξετάζει τις πιθανές εφαρμογές της τεχνητής νοημοσύνης στην κλινική περίθαλψη και αξιολογεί την απόδοση του γλωσσικού μοντέλου ChatGPT του OpenAI στην κλινική συλλογιστική χρησιμοποιώντας ερωτήσεις για τις εξετάσεις USMLE. Η μελέτη διαπίστωσε ότι το ChatGPT είχε μέτρια ακρίβεια και παρήγαγε σημαντική γνώση σύμφωνα με τους κριτές γιατρούς, ενώ η ακρίβειά του βελτιώθηκε σε σύγκριση με προηγούμενα μοντέλα. Η δημοσίευση υποδηλώνει ότι το ChatGPT έχει τη δυνατότητα να βοηθήσει στην ιατρική εκπαίδευση και υπογραμμίζει την ανάγκη για μια ερευνητική υποδομή ανοικτής επιστήμης για τη μελέτη της αλληλεπίδρασης ανθρώπου-ΑΙ στην ιατρική εκπαίδευση. Συζητά επίσης τις ευρύτερες εφαρμογές της τεχνητής νοημοσύνης στην κλινική πρακτική, όπως η αξιολόγηση κινδύνου, η υποστήριξη αποφάσεων, η επιχειρησιακή αποτελεσματικότητα και η επικοινωνία με τους ασθενείς. Η AnsibleHealth έχει αρχίσει να χρησιμοποιεί το ChatGPT για τη συγγραφή εργασιών και σύνθετων περιπτώσεων στην εικονική κλινική χρόνιας πνευμονοπάθειας.

Κύρια σημεία του άρθρου:

Περιορισμένη εφαρμογή της τεχνητής νοημοσύνης στην κλινική περίθαλψη λόγω των προκλήσεων με τα δεδομένα και την δυνατότητα αναπαραγωγής
Αξιολόγηση των επιδόσεων του ChatGPT σε ερωτήσεις των εξετάσεων USMLE
Μέτρια ακρίβεια που επιτεύχθηκε από το ChatGPT στις ερωτήσεις του USMLE
Δυνατότητα βελτίωσης της ιατρικής εκπαίδευσης με τη χρήση γεννητικών μοντέλων τεχνητής νοημοσύνης
Ευρύτερες εφαρμογές της ΤΝ στην κλινική πρακτική, συμπεριλαμβανομένης της αξιολόγησης κινδύνου, της υποστήριξης αποφάσεων, της αποτελεσματικότητας και της επικοινωνίας
Χρήση του ChatGPT από κλινικούς ιατρούς σε περιβάλλον εικονικής κλινικής για διάφορες εργασίες.

Αναλυτικά το άρθρο:
Εισαγωγή

Κατά την τελευταία δεκαετία, οι εξελίξεις στα νευρωνικά δίκτυα, τη βαθιά μάθηση και την τεχνητή νοημοσύνη (AI) έχουν μεταμορφώσει τον τρόπο με τον οποίο προσεγγίζουμε ένα ευρύ φάσμα εργασιών και κλάδων που κυμαίνονται από τη μεταποίηση και τη χρηματοδότηση έως τα καταναλωτικά προϊόντα. Η δυνατότητα κατασκευής μοντέλων ταξινόμησης υψηλής ακρίβειας γρήγορα και ανεξάρτητα από τον τύπο των δεδομένων εισόδου (π.χ. εικόνες, κείμενο, ήχος) επέτρεψε την ευρεία υιοθέτηση εφαρμογών όπως η αυτοματοποιημένη επισήμανση αντικειμένων και χρηστών σε φωτογραφίες , η μετάφραση κειμένου σχεδόν σε ανθρώπινο επίπεδο , η αυτοματοποιημένη σάρωση σε ΑΤΜ τραπεζών, ακόμη και η δημιουργία λεζάντων εικόνων.

Ενώ οι τεχνολογίες αυτές έχουν επιφέρει σημαντικές επιπτώσεις σε πολλούς κλάδους, οι εφαρμογές στην κλινική περίθαλψη παραμένουν περιορισμένες. Ο πολλαπλασιασμός των κλινικών πεδίων ελεύθερου κειμένου σε συνδυασμό με την έλλειψη γενικής διαλειτουργικότητας μεταξύ των συστημάτων πληροφορικής υγείας συμβάλλουν στην έλλειψη δομημένων, αναγνώσιμων από μηχανήματα δεδομένων που απαιτούνται για την ανάπτυξη αλγορίθμων βαθιάς μάθησης. Ακόμα και όταν αναπτύσσονται αλγόριθμοι εφαρμόσιμοι στην κλινική περίθαλψη, η ποιότητά τους τείνει να είναι εξαιρετικά μεταβλητή, ενώ πολλοί αποτυγχάνουν να γενικευτούν σε διάφορα περιβάλλοντα λόγω περιορισμένης τεχνικής, στατιστικής και εννοιολογικής αναπαραγωγικότητας. Ως αποτέλεσμα, η συντριπτική πλειονότητα των επιτυχημένων εφαρμογών υγειονομικής περίθαλψης υποστηρίζει επί του παρόντος λειτουργίες back-office που κυμαίνονται από τις λειτουργίες των πληρωτών, την αυτοματοποιημένη επεξεργασία προηγούμενων εγκρίσεων και τη διαχείριση των αλυσίδων εφοδιασμού και των απειλών κυβερνοασφάλειας. Με σπάνιες εξαιρέσεις -ακόμη και στην ιατρική απεικόνιση- υπάρχουν σχετικά λίγες εφαρμογές ΤΝ που χρησιμοποιούνται άμεσα στην ευρεία κλινική περίθαλψη σήμερα.

Η κατάλληλη ανάπτυξη κλινικών μοντέλων ΤΝ απαιτεί σημαντικό χρόνο, πόρους και, το σημαντικότερο, δεδομένα εκπαίδευσης που αφορούν σε τομείς και προβλήματα, τα οποία είναι ανεπαρκή στον κόσμο της υγειονομικής περίθαλψης. Μια από τις βασικές εξελίξεις που επέτρεψε την ΤΝ με βάση την εικόνα στην κλινική απεικόνιση ήταν η ικανότητα των μεγάλων μοντέλων γενικού τομέα να αποδίδουν εξίσου καλά ή ακόμη και καλύτερα από τα μοντέλα ειδικού τομέα. Αυτή η εξέλιξη έχει προκαλέσει καταλυτικά σημαντική δραστηριότητα τεχνητής νοημοσύνης στην ιατρική απεικόνιση, όπου διαφορετικά θα ήταν δύσκολο να αποκτηθούν επαρκείς σχολιασμένες κλινικές εικόνες.

Πράγματι, σήμερα, το Inception-V3 χρησιμεύει ως το βασικό θεμέλιο πολλών από τα κορυφαία μοντέλα ιατρικής απεικόνισης που δημοσιεύονται σήμερα, από την οφθαλμολογία και την παθολογία έως τη δερματολογία.

Τις τελευταίες τρεις εβδομάδες, ένα νέο μοντέλο τεχνητής νοημοσύνης που ονομάζεται ChatGPT συγκέντρωσε σημαντική προσοχή λόγω της ικανότητάς του να εκτελεί ένα ευρύ φάσμα εργασιών φυσικής γλώσσας. Το ChatGPT είναι ένα γενικό Μεγάλο Γλωσσικό Μοντέλο (Large Language Model - LLM) που αναπτύχθηκε πρόσφατα από το OpenAI. Ενώ η προηγούμενη κατηγορία μοντέλων τεχνητής νοημοσύνης ήταν κυρίως μοντέλα βαθιάς μάθησης (DL), τα οποία έχουν σχεδιαστεί για να μαθαίνουν και να αναγνωρίζουν μοτίβα σε δεδομένα, τα LLM είναι ένας νέος τύπος αλγορίθμου τεχνητής νοημοσύνης που εκπαιδεύεται για να προβλέπει την πιθανότητα μιας δεδομένης ακολουθίας λέξεων με βάση το πλαίσιο των λέξεων που προηγούνται. Έτσι, εάν τα LLMs εκπαιδευτούν σε επαρκώς μεγάλες ποσότητες δεδομένων κειμένου, είναι ικανά να παράγουν νέες ακολουθίες λέξεων που δεν έχουν παρατηρηθεί ποτέ προηγουμένως από το μοντέλο, αλλά που αντιπροσωπεύουν αληθοφανείς ακολουθίες με βάση τη φυσική ανθρώπινη γλώσσα. Το ChatGPT τροφοδοτείται από το GPT3.5, ένα LLM που εκπαιδεύεται στο μοντέλο θεμελίωσης παραμέτρων OpenAI 175B και σε ένα μεγάλο σύνολο δεδομένων κειμένου από το Διαδίκτυο μέσω μεθόδων ενισχυτικής και εποπτευόμενης μάθησης. Η ανεπίσημη χρήση δείχνει ότι το ChatGPT παρουσιάζει ενδείξεις επαγωγικού συλλογισμού και αλυσίδας σκέψης, καθώς και δεξιότητες μακροχρόνιας εξάρτησης.

Στην παρούσα μελέτη, αξιολογούμε την απόδοση του ChatGPT, ενός μη εξειδικευμένου LLM, ως προς την ικανότητά του να εκτελεί κλινικό συλλογισμό, δοκιμάζοντας την απόδοσή του σε ερωτήσεις από τις εξετάσεις ιατρικής αδειοδότησης των Ηνωμένων Πολιτειών (USMLE). Το USMLE είναι ένα υψηλού επιπέδου, ολοκληρωμένο πρόγραμμα τυποποιημένων εξετάσεων τριών σταδίων που καλύπτει όλα τα θέματα του γνωστικού κεφαλαίου των ιατρών, καλύπτοντας τις βασικές επιστήμες, την κλινική σκέψη, την ιατρική διαχείριση και τη βιοηθική. Η δυσκολία και η πολυπλοκότητα των ερωτήσεων είναι ιδιαίτερα τυποποιημένη και ρυθμιζόμενη, καθιστώντας το ιδανικό υπόστρωμα εισόδου για δοκιμές ΤΝ. Η εξέταση είναι καθιερωμένη, παρουσιάζοντας αξιοσημείωτα σταθερές ακατέργαστες βαθμολογίες και ψυχομετρικές ιδιότητες κατά τα προηγούμενα δέκα χρόνια. Οι εξετάσεις Step 1 τυπικά εξετάζονται από φοιτητές ιατρικής που έχουν ολοκληρώσει δύο έτη διδακτικής και προβληματικής μάθησης και επικεντρώνονται στη βασική επιστήμη, τη φαρμακολογία και την παθοφυσιολογία- οι φοιτητές ιατρικής συχνά αφιερώνουν περίπου 300-400 ώρες αφιερωμένου χρόνου μελέτης για την προετοιμασία για τις εξετάσεις αυτές. Η εξέταση Step 2CK εξετάζεται συνήθως από τεταρτοετείς φοιτητές ιατρικής που έχουν επιπλέον ολοκληρώσει 1,5 έως 2 έτη κλινικής εναλλαγής- δίνει έμφαση στην κλινική συλλογιστική, την ιατρική διαχείριση και τη βιοηθική. Οι εξετάσεις Step 3 λαμβάνονται από ιατρούς που έχουν γενικά ολοκληρώσει τουλάχιστον 0,5 έως 1 έτος μεταπτυχιακής ιατρικής εκπαίδευσης.

Τα ερωτήματα USMLE είναι πυκνά από άποψη κειμένου και εννοιών- οι υποδείξεις κειμένου περιέχουν πολυτροπικά κλινικά δεδομένα (π.χ. ιστορικό, φυσική εξέταση, εργαστηριακές τιμές και αποτελέσματα μελετών) που χρησιμοποιούνται συχνά για τη δημιουργία διφορούμενων σεναρίων με στενά συνδεδεμένες διαφορικές διαγνώσεις. Λόγω του γλωσσικού και εννοιολογικού του πλούτου, σκεφτήκαμε ότι το USMLE θα χρησίμευε ως εξαιρετική πρόκληση για το ChatGPT.

Η εργασία μας αποσκοπεί στην παροχή τόσο ποιοτικής όσο και ποσοτικής ανατροφοδότησης σχετικά με την απόδοση του ChatGPT και στην αξιολόγηση των δυνατοτήτων χρήσης του στην υγειονομική περίθαλψη.

Μέθοδοι

Τεχνητή νοημοσύνη
Το ChatGPT (OpenAI, Σαν Φρανσίσκο, Καλιφόρνια) είναι ένα μεγάλο γλωσσικό μοντέλο που χρησιμοποιεί μηχανισμούς αυτοπροσοχής και μεγάλο όγκο δεδομένων εκπαίδευσης για να παράγει απαντήσεις φυσικής γλώσσας σε εισαγωγή κειμένου σε πλαίσιο συνομιλίας. Είναι ιδιαίτερα αποτελεσματικό στο χειρισμό εξαρτήσεων μεγάλης κλίμακας και στη δημιουργία συνεκτικών και κατάλληλων για το πλαίσιο απαντήσεων. Το ChatGPT είναι ένα γλωσσικό μοντέλο που βρίσκεται σε διακομιστή και δεν είναι σε θέση να περιηγηθεί ή να εκτελέσει αναζητήσεις στο διαδίκτυο. Ως εκ τούτου, όλες οι απαντήσεις παράγονται επί τόπου, με βάση την αφηρημένη σχέση μεταξύ των λέξεων ("tokens") στο νευρωνικό δίκτυο. Αυτό έρχεται σε αντίθεση με άλλα chatbots ή συστήματα συνομιλίας που έχουν τη δυνατότητα πρόσβασης σε εξωτερικές πηγές πληροφοριών (π.χ. εκτέλεση διαδικτυακών αναζητήσεων ή πρόσβαση σε βάσεις δεδομένων) προκειμένου να παρέχουν κατευθυνόμενες απαντήσεις σε ερωτήματα χρηστών.

Πηγή εισόδου
376 δημόσια διαθέσιμες ερωτήσεις εξετάσεων από την έκδοση δειγματικών εξετάσεων του Ιουνίου 2022, με την ονομασία USMLE-2022, ελήφθησαν από τον επίσημο ιστότοπο του USMLE. Ως εκ τούτου, όλες οι είσοδοι αντιπροσώπευαν πραγματικά δείγματα εκτός εκπαίδευσης για το μοντέλο GPT3. Αυτό επιβεβαιώθηκε περαιτέρω με τυχαίο δειγματοληπτικό έλεγχο των εισόδων για να διασφαλιστεί ότι καμία από τις απαντήσεις, τις εξηγήσεις ή το σχετικό περιεχόμενο δεν είχε καταχωρηθεί στο ευρετήριο της Google πριν από την 1η Ιανουαρίου 2022, που αντιπροσωπεύει την τελευταία ημερομηνία στην οποία είχε πρόσβαση το σύνολο δεδομένων εκπαίδευσης ChatGPT. Όλες οι δειγματικές ερωτήσεις δοκιμής ελέγχθηκαν και οι ερωτήσεις που περιείχαν οπτικά στοιχεία, όπως κλινικές εικόνες, ιατρικές φωτογραφίες και γραφήματα, αφαιρέθηκαν. Μετά το φιλτράρισμα, 350 στοιχεία USMLE (Βήμα 1: 119, Βήμα 2CK: 102, Βήμα 3: 122) προωθήθηκαν στην κωδικοποίηση. Υποθέτοντας μια κανονική κατανομή των επιδόσεων του μοντέλου, αυτό παρέχει 90% ισχύ σε α = 0,05 για την ανίχνευση μιας αύξησης της ακρίβειας κατά 2,5% έναντι ενός βασικού ποσοστού 60 ± 20% (σ).

Κωδικοποίηση
Οι ερωτήσεις διαμορφώθηκαν σε τρεις παραλλαγές και εισήχθησαν στο ChatGPT με την ακόλουθη σειρά:

1. Ανοιχτού τύπου (ΑΑ) προτροπή: Δημιουργήθηκε με την αφαίρεση όλων των επιλογών απάντησης, προσθέτοντας μια μεταβλητή εισαγωγική ερωτηματική φράση. Αυτή η μορφή προσομοιώνει την ελεύθερη εισαγωγή και ένα φυσικό μοτίβο ερωτήσεων του χρήστη. Τα παραδείγματα περιλαμβάνουν: "Ποια θα ήταν η διάγνωση του ασθενούς με βάση τις παρεχόμενες πληροφορίες;" ή "Κατά τη γνώμη σας, ποιος είναι ο λόγος για την ασυμμετρία της κόρης του ασθενούς;".

2. Πολλαπλή επιλογή με μία μόνο απάντηση χωρίς αναγκαστική αιτιολόγηση (MC-NJ): Δημιουργήθηκε με την αναπαραγωγή της αρχικής ερώτησης USMLE κατά λέξη. Τα παραδείγματα περιλαμβάνουν: "Ποιο από τα παρακάτω αντιπροσωπεύει καλύτερα το καταλληλότερο επόμενο βήμα στη διαχείριση;" ή "Η κατάσταση του ασθενούς προκαλείται κυρίως από ποιο από τα παρακάτω παθογόνα;".

3. Πολλαπλής επιλογής με μία μόνο απάντηση και αναγκαστική αιτιολόγηση (MC-J): Δημιουργείται με την προσθήκη μιας μεταβλητής εισαγωγικής προστακτικής ή ερωτηματικής φράσης που επιβάλλει στο ChatGPT να παρέχει μια αιτιολόγηση για κάθε επιλογή απάντησης. Τα παραδείγματα περιλαμβάνουν: "Ποιος από τους ακόλουθους λόγους είναι ο πιθανότερος για τα νυχτερινά συμπτώματα του ασθενούς; Εξηγήστε το σκεπτικό σας για κάθε επιλογή"- ή "Η καταλληλότερη φαρμακοθεραπεία για αυτόν τον ασθενή πιθανότατα λειτουργεί με ποιον από τους ακόλουθους μηχανισμούς; Γιατί οι άλλες επιλογές είναι λανθασμένες;"

Οι κωδικοποιητές χρησιμοποίησαν σκόπιμη διαφοροποίηση στις εισαγωγικές προτροπές για να αποφύγουν τα συστηματικά σφάλματα που εισάγονται από την άκαμπτη διατύπωση. Για να μειωθεί η μεροληψία διατήρησης της μνήμης, για κάθε καταχώρηση ξεκίνησε μια νέα συνεδρία συνομιλίας στο ChatGPT. Πραγματοποιήθηκε συνήθης 2-way ANOVA της ακρίβειας απόκρισης AI post hoc για να αξιολογηθεί η συστηματική συνδιακύμανση μεταξύ κωδικοποιητών και τύπου προτροπής ερώτησης. Οι κωδικοποιητές εξετάστηκαν αρχικά ως άτομα (n = 8 εισάγοντες) και στη συνέχεια ως ομάδες που ταξινομήθηκαν με βάση το επίπεδο ιατρικής εμπειρογνωμοσύνης (n = 4 ομάδες: ιατρός, φοιτητής ιατρικής, νοσηλευτής ή μη γενικός ιατρός).

Κρίση
Οι έξοδοι AI βαθμολογήθηκαν ανεξάρτητα για την ακρίβεια, τη συμφωνία και τη διορατικότητα (ACI) από δύο ιατρούς κριτές χρησιμοποιώντας τα κριτήρια. Οι ιατροί ήταν τυφλοί μεταξύ τους. Ένα υποσύνολο 20 ερωτήσεων USMLE χρησιμοποιήθηκε για τη συλλογική εκπαίδευση των κριτών. Οι γιατροί δεν τυφλώθηκαν για αυτό το υποσύνολο, αλλά η διασταυρούμενη μόλυνση μεταξύ των κριτών καταστέλλεται με την επιβολή κλιμακωτής αναθεώρησης των μέτρων εξόδου. Για παράδειγμα, ο ιατρός 1 έκρινε την Ακρίβεια ενώ ο ιατρός 2 έκρινε τη Συμφωνία. Στη συνέχεια, οι ρόλοι εναλλάχθηκαν έτσι ώστε κάθε κριτής να παρέχει μια πλήρη αξιολόγηση ACI για ολόκληρο το σύνολο δεδομένων. Για να ελαχιστοποιηθεί η μεροληψία αγκύρωσης εντός του στοιχείου, οι κριτές βαθμολόγησαν την Ακρίβεια για όλα τα στοιχεία, ακολουθούμενη από τη Συμφωνία για όλα τα στοιχεία, ακολουθούμενη από τη Διόραση για όλα τα στοιχεία. Εάν δεν επιτεύχθηκε συναίνεση και για τους τρεις τομείς, το στοιχείο παραπέμφθηκε σε τελικό κριτή ιατρό. Συνολικά 21 στοιχεία (6,2% του συνόλου δεδομένων) χρειάστηκαν απόφαση από τρίτο ιατρό. Η συμφωνία μεταξύ των ιατρών αξιολογήθηκε με τον υπολογισμό της στατιστικής Cohen kappa (κ) για τις ερωτήσεις OE και MC.

Αποτελέσματα

Το ChatGPT παρέχει μέτρια ακρίβεια που πλησιάζει την απόδοση για το πέρασμα στο USMLE

Τα στοιχεία των εξετάσεων κωδικοποιήθηκαν αρχικά ως ερωτήσεις ανοικτού τύπου με μεταβλητές εισαγωγικές προτροπές. Αυτή η μορφή εισόδου προσομοιώνει ένα ελεύθερο φυσικό μοτίβο ερωτήσεων του χρήστη. Με λογοκρισία/συμπερίληψη των απροσδιόριστων απαντήσεων, η ακρίβεια του ChatGPT για τα βήματα 1, 2CK και 3 του USMLE ήταν 75,0%/45,4%, 61,5%/54,1% και 68,8%/61,5% αντίστοιχα.

Στη συνέχεια, τα στοιχεία των εξετάσεων κωδικοποιήθηκαν ως ερωτήσεις πολλαπλής επιλογής με μία απάντηση χωρίς αναγκαστική αιτιολόγηση (MC-NJ). Αυτή η είσοδος είναι η αυτολεξεί μορφή ερωτήσεων που παρουσιάζεται στους εξεταζόμενους. Με λογοκρισία/συμπεριλαμβανομένων των απροσδιόριστων απαντήσεων, η ακρίβεια του ChatGPT για τα USMLE Steps 1, 2CK και 3 ήταν 55,8%/36,1%, 59,1%/56,9% και 61,3%/55,7%, αντίστοιχα.

Τέλος, τα στοιχεία κωδικοποιήθηκαν ως ερωτήσεις πολλαπλής επιλογής και μίας απάντησης με αναγκαστική αιτιολόγηση των θετικών και αρνητικών επιλογών (MC-J). Αυτή η μορφή εισαγωγής προσομοιώνει τη συμπεριφορά του χρήστη που αναζητά διορατικότητα. Με λογοκρισία/συμπεριλαμβανομένων των απροσδιόριστων απαντήσεων, η ακρίβεια του ChatGPT ήταν 64,5%/ 41,2%, 52,4%/49,5% και 65,2%/59,8%, αντίστοιχα.

Στο στάδιο της κωδικοποίησης, δεν υπήρχαν στατιστικά σημαντικές αλληλεπιδράσεις μεταξύ των κωδικοποιητών και του τύπου της προτροπής ερώτησης, ανεξάρτητα από το αν οι κωδικοποιητές αναλύθηκαν ως άτομα ή όταν ομαδοποιήθηκαν με βάση το επίπεδο ιατρικής εμπειρογνωμοσύνης. Όπως αναμενόταν, η δια-ατομική διακύμανση κυριάρχησε έναντι της δια-ομαδικής διακύμανσης, αλλά η συνολική συνεισφορά ήταν ασήμαντη σε σχέση με το υπολειπόμενο σφάλμα. Στο στάδιο της κρίσης, η συμφωνία των ιατρών ήταν σημαντική για τις υποδείξεις OE (εύρος κ από 0,74 έως 0,81) και σχεδόν τέλεια για τις υποδείξεις MC (κ >0,9).

Το ChatGPT επιδεικνύει υψηλή εσωτερική συμφωνία

Η συμφωνία κρίθηκε ανεξάρτητα από δύο ιατρούς κριτές με την επιθεώρηση του περιεχομένου των εξηγήσεων. Συνολικά, το ChatGPT παρήγαγε απαντήσεις και εξηγήσεις με συμφωνία 94,6% σε όλες τις ερωτήσεις. Η υψηλή συνολική συμφωνία διατηρήθηκε σε όλα τα επίπεδα εξέτασης και σε όλες τις μορφές εισαγωγής ερωτήσεων OE, MC-NJ και MC-J.

Στη συνέχεια, αναλύσαμε τη σχέση μεταξύ ακρίβειας και συμφωνίας στις απαντήσεις MC-J. Το ChatGPT αναγκάστηκε να δικαιολογήσει την προτίμησή του στην επιλογή απάντησης και να υπερασπιστεί την απόρριψη των εναλλακτικών επιλογών. Η συμφωνία μεταξύ των ακριβών απαντήσεων ήταν σχεδόν τέλεια και σημαντικά μεγαλύτερη από ό,τι μεταξύ των ανακριβών απαντήσεων (99,1% έναντι 85,1%, p<0,001).

Αυτά τα δεδομένα υποδεικνύουν ότι το ChatGPT παρουσιάζει πολύ υψηλή συμφωνία απαντήσεων-εξηγήσεων, η οποία πιθανότατα αντανακλά την υψηλή εσωτερική συνοχή του πιθανολογικού γλωσσικού μοντέλου του.

Οι εξηγήσεις που παράγονται από το ChatGPT περιέχουν μη προφανείς γνώσεις

Αφού διαπιστώσαμε την ακρίβεια και τη συμφωνία του ChatGPT, εξετάσαμε στη συνέχεια τις δυνατότητές του να ενισχύσει την ανθρώπινη μάθηση στον τομέα της ιατρικής εκπαίδευσης. Οι εξηγήσεις που παρήγαγε η τεχνητή νοημοσύνη κρίθηκαν ανεξάρτητα από 2 ιατρούς κριτές. Το περιεχόμενο των εξηγήσεων εξετάστηκε για σημαντικές ιδέες, οι οποίες ορίστηκαν ως περιπτώσεις που πληρούσαν τα κριτήρια της καινοτομίας, του μη προφανή και της εγκυρότητας. Η οπτική γωνία του κοινού-στόχου της δοκιμής υιοθετήθηκε από τον κριτή, ως δευτεροετής φοιτητής ιατρικής για το Βήμα 1, τεταρτοετής φοιτητής ιατρικής για το Βήμα 2CK και μεταπτυχιακός ειδικευόμενος έτους 1 για το Βήμα 3.

Αρχικά εξετάσαμε τη συχνότητα (επικράτηση) της διορατικότητας. Συνολικά, το ChatGPT παρήγαγε τουλάχιστον μία σημαντική διορατικότητα στο 88,9% όλων των απαντήσεων. Η συχνότητα της επίγνωσης ήταν γενικά σταθερή μεταξύ του τύπου εξέτασης και της μορφής εισαγωγής ερωτήσεων. Στο βήμα 2CK, ωστόσο, η ενόραση μειώθηκε κατά 10,3% (n = 11 στοιχεία) μεταξύ των διατυπώσεων MC-NJ και MC-J, παράλληλα με τη μείωση της ακρίβειας. Η ανασκόπηση αυτού του υποσυνόλου ερωτήσεων δεν αποκάλυψε ένα διακριτό μοτίβο για την παράδοξη μείωση.

Στη συνέχεια, προσδιορίσαμε ποσοτικά την πυκνότητα της διορατικότητας (DOI) που περιέχεται στις εξηγήσεις που παράγονται από την τεχνητή νοημοσύνη. Ορίστηκε ένας δείκτης πυκνότητας με την κανονικοποίηση του αριθμού των μοναδικών ενοράσεων σε σχέση με τον αριθμό των πιθανών επιλογών απάντησης. Η ανάλυση αυτή πραγματοποιήθηκε μόνο για τις καταχωρήσεις MC-J. Οι εξόδους υψηλής ποιότητας χαρακτηρίζονταν γενικά από DOI >0,6 (δηλαδή μοναδικές, καινοτόμες, μη προφανείς και έγκυρες ιδέες που παρέχονται για >3 από τις 5 επιλογές)- οι εξόδους χαμηλής ποιότητας χαρακτηρίζονταν γενικά από DOI ≤0,2. Το ανώτερο όριο του DOI περιορίζεται μόνο από το μέγιστο μήκος του κειμένου εξόδου. Σε όλους τους τύπους εξετάσεων, παρατηρήσαμε ότι ο μέσος DOI ήταν σημαντικά υψηλότερος σε στοιχεία ερωτήσεων που απαντήθηκαν με ακρίβεια έναντι ανακριβών απαντήσεων (0,458 έναντι 0,199, p <0,0001).

Η υψηλή συχνότητα και η μέτρια πυκνότητα των γνώσεων υποδεικνύουν ότι μπορεί να είναι δυνατό για έναν μαθητή-στόχο (π.χ., όπως ένας δευτεροετής φοιτητής ιατρικής που προετοιμάζεται για το Βήμα 1) να αποκτήσει νέες ή διορθωτικές γνώσεις από την έξοδο του ChatGPT AI, ιδίως αν απαντήσει εσφαλμένα.

Συζήτηση

Στην παρούσα μελέτη, παρέχουμε νέα και εκπληκτικά στοιχεία ότι το ChatGPT είναι σε θέση να εκτελεί διάφορες περίπλοκες εργασίες που σχετίζονται με το χειρισμό σύνθετων ιατρικών και κλινικών πληροφοριών. Για να αξιολογήσουμε τις ικανότητες του ChatGPT έναντι βιοϊατρικών και κλινικών ερωτήσεων τυποποιημένης πολυπλοκότητας και δυσκολίας, δοκιμάσαμε τα χαρακτηριστικά των επιδόσεών του στις εξετάσεις ιατρικής αδειοδότησης των Ηνωμένων Πολιτειών (USMLE).
Τα συμπεράσματά μας μπορούν να οργανωθούν σε δύο κύρια θέματα: (1) την αυξανόμενη ακρίβεια του ChatGPT, η οποία προσεγγίζει ή υπερβαίνει το όριο επιτυχίας για το USMLE και (2) τη δυνατότητα αυτής της ΤΝ να παράγει νέες γνώσεις που μπορούν να βοηθήσουν τους ανθρώπινους εκπαιδευόμενους σε ένα περιβάλλον ιατρικής εκπαίδευσης.

Η αυξανόμενη ακρίβεια του ChatGPT

Η πιο πρόσφατη επανάληψη του GPT LLM (GPT3) πέτυχε ακρίβεια 46% με μηδενική προτροπή, η οποία βελτιώθηκε οριακά στο 50% με περαιτέρω εκπαίδευση του μοντέλου και εκτεταμένη ρύθμιση της προτροπής. Τα προηγούμενα μοντέλα, μόλις λίγους μήνες πριν, είχαν απόδοση 36,7%. Στην παρούσα μελέτη, το ChatGPT είχε ακρίβεια >50% σε όλες τις εξετάσεις, ξεπερνώντας το 60% σε ορισμένες αναλύσεις. Το κατώτατο όριο επιτυχίας στο USMLE, αν και ποικίλλει ανάλογα με το έτος, είναι περίπου 60%. Επομένως, το ChatGPT πλησιάζει τώρα το εύρος επιτυχίας. Όντας το πρώτο πείραμα που επιτυγχάνει αυτό το σημείο αναφοράς, πιστεύουμε ότι πρόκειται για ένα εκπληκτικό και εντυπωσιακό αποτέλεσμα. Επιπλέον, δεν δώσαμε καμία προτροπή ή εκπαίδευση στην ΤΝ, ελαχιστοποιήσαμε τη μεροληψία γείωσης διαγράφοντας τη συνεδρία ΤΝ πριν από την εισαγωγή κάθε παραλλαγής ερώτησης και αποφύγαμε τη μεροληψία της αλυσίδας σκέψης ζητώντας αναγκαστική αιτιολόγηση μόνο ως τελική είσοδο. Περαιτέρω αλληλεπίδραση του μοντέλου και συντονισμός της προτροπής θα μπορούσαν συχνά να παράγουν πιο ακριβή αποτελέσματα. Δεδομένης αυτής της πορείας, είναι πιθανό οι επιδόσεις της ΤΝ να συνεχίσουν να βελτιώνονται καθώς τα μοντέλα LLM συνεχίζουν να ωριμάζουν.

Παραδόξως, το ChatGPT ξεπέρασε το PubMedGPT (ακρίβεια 50,3%), ένα αντίστοιχο LLM με παρόμοια νευρωνική δομή, αλλά εκπαιδευμένο αποκλειστικά στη βιβλιογραφία του βιοϊατρικού τομέα. Υποθέτουμε ότι η ειδική για τον τομέα εκπαίδευση μπορεί να έχει δημιουργήσει μεγαλύτερη αμφισβήτηση στο μοντέλο PubMedGPT, καθώς απορροφά πραγματικό κείμενο από τον τρέχοντα ακαδημαϊκό λόγο που τείνει να είναι ασαφής, αντιφατικός ή ιδιαίτερα συντηρητικός ή μη δεσμευτικός στη γλώσσα του. Ένα ιδρυματικό LLM που εκπαιδεύεται σε γενικό περιεχόμενο, όπως το ChatGPT, μπορεί επομένως να έχει πλεονέκτημα, επειδή εκτίθεται επίσης σε ευρύτερο κλινικό περιεχόμενο, όπως οι αρχικές οδηγίες ασθενειών που απευθύνονται στον ασθενή και τα ένθετα συσκευασίας φαρμάκων που απευθύνονται στον πάροχο, τα οποία είναι πιο οριστικά και συμβατά.

Μια πρόσθετη εξήγηση για την παρατηρούμενη διαφορά στις επιδόσεις μπορεί να είναι τα διαφορετικά σύνολα δεδομένων δοκιμών ΤΝ. Η παρούσα μελέτη μας δοκίμασε το ChatGPT σε σύγχρονες εξετάσεις USMLE (δημόσια διαθέσιμες όχι νωρίτερα από το 2022, 5 επιλογές απαντήσεων ανά ερώτηση), ενώ προηγούμενες αναφορές δοκίμασαν γλωσσικά μοντέλα σε σύνολο δεδομένων MedQA-USMLE (δημόσια διαθέσιμα 2009-2020, 4 επιλογές απαντήσεων ανά ερώτηση). Παρόλο που δεν πραγματοποιήσαμε άμεση σύγκριση με το MedQA-UMSLE, η προσέγγισή μας έχει ωστόσο αρκετά πλεονεκτήματα. Είναι εγγυημένο ότι καμία από τις εισροές μας δεν είχε δει προηγουμένως το GPT3, ενώ πολλές από τις εισροές από το MedQA-USMLE θα είχαν πιθανότατα προσληφθεί κατά την προεκπαίδευση του μοντέλου. Λαμβάνοντας υπόψη ότι οι ιατρικές γνώσεις πολλαπλασιάζονται με ρυθμό ταχύτερο από τον εκθετικό και ότι η προηγούμενη τεκμηριωμένη πρακτική συχνά καταρρίπτεται, ορισμένες έννοιες που εξετάζονται από το MedQA-USMLE είναι ήδη απαρχαιωμένες και δεν αντιπροσωπεύουν το σημερινό περιεχόμενο των εξετάσεων. Τέλος, η υψηλότερη ακρίβεια του ChatGPT στο USMLE-2022 παρά τον μεγαλύτερο αριθμό επιλογών απάντησης (5 έναντι 4) μπορεί να υποδηλώνει ακόμη πιο εντυπωσιακή απόδοση αυτού του μοντέλου σε σχέση με άλλα γλωσσικά μοντέλα ειδικών τομέων, όπως το PubMedGPT και το BioBERT.

Σύμφωνα με τον μηχανισμό των γεννητικών γλωσσικών μοντέλων, παρατηρήσαμε ότι η ακρίβεια του ChatGPT διαμεσολαβείται έντονα από τη συμφωνία και τη διορατικότητα. Οι έξοδοι υψηλής ακρίβειας χαρακτηρίζονταν από υψηλή συμφωνία και υψηλή πυκνότητα διορατικότητας. Η φτωχότερη ακρίβεια χαρακτηριζόταν από χαμηλότερη συμφωνία και φτώχεια διορατικότητας. Ως εκ τούτου, οι ανακριβείς απαντήσεις καθορίζονταν κυρίως από την έλλειψη πληροφοριών, που οδηγούσε σε μειωμένη διορατικότητα και αναποφασιστικότητα στην ΤΝ, παρά σε υπερβολική δέσμευση στη λανθασμένη επιλογή απάντησης. Αυτά τα ευρήματα υποδεικνύουν ότι η απόδοση του μοντέλου θα μπορούσε να βελτιωθεί σημαντικά με τη συγχώνευση ιδρυτικών μοντέλων, όπως το ChatGPT, με ένα ειδικό για τον τομέα LLM ή άλλο μοντέλο που εκπαιδεύεται σε ογκώδεις και ιδιαίτερα επικυρωμένους πόρους ιατρικής γνώσης, όπως το UpToDate, ή άλλο περιεχόμενο αναγνωρισμένο από το ACGME.

Είναι ενδιαφέρον ότι η ακρίβεια του ChatGPT έτεινε να είναι χαμηλότερη για το Βήμα 1, ακολουθούμενη από το Βήμα 2CK, ακολουθούμενη από το Βήμα 3. Αυτό αντικατοπτρίζει τόσο την υποκειμενική δυσκολία όσο και τις αντικειμενικές επιδόσεις των εξεταζομένων στον πραγματικό κόσμο στο Βήμα 1, το οποίο θεωρείται συλλογικά ως η πιο δύσκολη εξέταση της σειράς. Η χαμηλή ακρίβεια στο Βήμα 1 θα μπορούσε να εξηγηθεί από ένα ανεπαρκώς εκπαιδευμένο μοντέλο από την πλευρά της εισόδου (π.χ. υποαντιπροσώπευση του περιεχομένου των βασικών επιστημών στο γενικό χώρο πληροφοριών) ή/και από την ανθρώπινη πλευρά (π.χ. ανεπαρκής ή άκυρη ανθρώπινη κρίση στα αρχικά στάδια ενίσχυσης). Αυτό το αποτέλεσμα αποκαλύπτει μια βασική ευπάθεια στα προ-εκπαιδευμένα LLM, όπως το ChatGPT: Η ικανότητα της τεχνητής νοημοσύνης συνδέεται με την ανθρώπινη ικανότητα. Η απόδοση του ChatGPT στο βήμα 1 είναι φτωχότερη ακριβώς επειδή οι ανθρώπινοι χρήστες αντιλαμβάνονται το αντικείμενό του (π.χ. παθοφυσιολογία) ως πιο δύσκολο ή αδιαφανές.

Οι δυνατότητες για την ανθρώπινη μάθηση με τη βοήθεια της ΤΝ στην ιατρική εκπαίδευση

Εξετάσαμε επίσης την ικανότητα του ChatGPT να βοηθήσει την ανθρώπινη μαθησιακή διαδικασία του κοινού-στόχου του (π.χ. ενός δευτεροετούς φοιτητή ιατρικής που προετοιμάζεται για το USMLE Step 1). Ως υποκατάστατο για τη μετρική της χρησιμότητας, αξιολογήσαμε τη συμφωνία και τη διορατικότητα που προσφέρουν οι έξοδοι εξηγήσεων της ΤΝ. Οι απαντήσεις ChatGPT ήταν σε μεγάλο βαθμό σύμφωνες, έτσι ώστε ένας άνθρωπος εκπαιδευόμενος να μπορεί εύκολα να ακολουθήσει την εσωτερική γλώσσα, τη λογική και την κατευθυντικότητα των σχέσεων που περιέχονται στο κείμενο επεξήγησης (π.χ. επινεφριδιακός υπερκορτιζολισμός ⥬ αυξημένη οστεοκλαστική δραστηριότητα των οστών ⥬ αυξημένη απορρόφηση ασβεστίου ⥬ μειωμένη οστική πυκνότητα ⥬ αυξημένος κίνδυνος κατάγματος). Η υψηλή εσωτερική συμφωνία και η χαμηλή αυτοαντιφατικότητα είναι ένα δείγμα ορθής κλινικής συλλογιστικής και μια σημαντική μετρική της ποιότητας των εξηγήσεων. Είναι καθησυχαστικό το γεγονός ότι η κατευθυντικότητα των σχέσεων διατηρείται από το μοντέλο γλωσσικής επεξεργασίας, όπου κάθε λεκτικό αντικείμενο λημματογραφείται ξεχωριστά.

Οι απαντήσεις που παρήγαγε η τεχνητή νοημοσύνη προσέφεραν επίσης σημαντική διορατικότητα, διαμορφώνοντας μια διαδικασία επαγωγικού συλλογισμού πολύτιμη για τους ανθρώπους που μαθαίνουν. Τουλάχιστον μία σημαντική διορατικότητα υπήρχε στο 90% περίπου των αποτελεσμάτων. Συνεπώς, το ChatGPT διαθέτει τη μερική ικανότητα να διδάσκει ιατρική αναδεικνύοντας νέες και μη προφανείς έννοιες που μπορεί να μην είναι στη σφαίρα επίγνωσης των μαθητών. Αυτό το ποιοτικό κέρδος παρέχει μια βάση για μελλοντικές μελέτες πραγματικού κόσμου σχετικά με την αποτελεσματικότητα της παραγωγικής ΤΝ για την ενίσχυση της ανθρώπινης ιατρικής εκπαιδευτικής διαδικασίας. Για παράδειγμα, οι διαχρονικές επιδόσεις στις εξετάσεις μπορούν να μελετηθούν σε μια ημιελεγχόμενη διαδικασία σε μαθητές που υποστηρίζονται από ΤΝ και σε μαθητές που δεν υποστηρίζονται. Η οικονομική ανάλυση της μονάδας μπορεί να αποσαφηνίσει τη σχέση κόστους-αποτελεσματικότητας του αυξημένου κέρδους απόδοσης των φοιτητών σε σύγκριση με τα υπάρχοντα εργαλεία, όπως οι εικονικοί καθηγητές και τα βοηθήματα μελέτης.

Η ιατρική εκπαίδευση, οι εξετάσεις αδειοδότησης και οι υπηρεσίες προετοιμασίας εξετάσεων αποτελούν ένα μεγάλο βιομηχανικό σύμπλεγμα που επισκιάζει ένα εννιαψήφιο μέγεθος αγοράς ετησίως. Αν και η σημασία τους παραμένει υπό συζήτηση, οι τυποποιημένες εξετάσεις έχουν αναδειχθεί σε σημαντικό τελικό στόχο της ιατρικής μάθησης. Παράλληλα, από τις διδακτικές τεχνικές, το διδακτικό ύφος της Σωκρατικής διδασκαλίας προτιμάται από τους φοιτητές της ιατρικής [18]. Το βήμα περιορισμού του ρυθμού για τη δημιουργία νέου περιεχομένου είναι η ανθρώπινη γνωστική προσπάθεια που απαιτείται για τη δημιουργία ρεαλιστικών κλινικών εικονιδίων που διερευνούν έννοιες "υψηλής απόδοσης" με λεπτό τρόπο, εμπλέκουν την κριτική σκέψη και προσφέρουν πολύτιμες γνώσεις ακόμη και αν απαντηθούν λανθασμένα. Η ζήτηση για νέο εξεταστικό περιεχόμενο συνεχίζει να αυξάνεται. Μελλοντικές μελέτες μπορούν να διερευνήσουν την ικανότητα της δημιουργικής γλωσσικής τεχνητής νοημοσύνης να αποφορτίσει αυτή την ανθρώπινη προσπάθεια, βοηθώντας στη διαδικασία συγγραφής ερωτήσεων-επεξηγήσεων ή, σε ορισμένες περιπτώσεις, γράφοντας ολόκληρα θέματα αυτόνομα.

Τέλος, η έλευση της τεχνητής νοημοσύνης στην ιατρική εκπαίδευση απαιτεί μια ανοικτή επιστημονική ερευνητική υποδομή για την τυποποίηση των πειραματικών μεθόδων, των ενδείξεων και των σημείων αναφοράς για την περιγραφή και την ποσοτικοποίηση των αλληλεπιδράσεων ανθρώπου-ΤΝ. Πρέπει να καλυφθούν πολλαπλές διαστάσεις, συμπεριλαμβανομένης της εμπειρίας του χρήστη, του μαθησιακού περιβάλλοντος, της υβριδοποίησης με άλλους τρόπους διδασκαλίας και της επίδρασης στη γνωστική προκατάληψη. Στην παρούσα έκθεση, παρέχουμε ένα αρχικό βασικό πρωτόκολλο για την αξιολόγηση των απαντήσεων που δημιουργούνται από την ΤΝ κατά μήκος των αξόνων της ακρίβειας, της συμφωνίας και της διορατικότητας.

Η μελέτη μας έχει αρκετούς σημαντικούς περιορισμούς. Το σχετικά μικρό μέγεθος εισόδου περιόρισε το βάθος και το εύρος των αναλύσεων. Για παράδειγμα, η διαστρωμάτωση της εξόδου του ChatGPT ανά θεματική ταξινόμηση (π.χ. φαρμακολογία, βιοηθική) ή τύπο ικανότητας (π.χ. διαφορική διάγνωση, διαχείριση) μπορεί να έχει μεγάλο ενδιαφέρον για τους εκπαιδευτές ιατρικής και θα μπορούσε να αποκαλύψει ετερογένειες στις επιδόσεις κατά τη γλωσσική επεξεργασία για διαφορετικά καθήκοντα κλινικής συλλογιστικής. Ομοίως, μια πιο ισχυρή ανάλυση τρόπου αποτυχίας της ΤΝ (π.χ. σφάλμα γλωσσικής ανάλυσης) μπορεί να δώσει πληροφορίες σχετικά με την αιτιολογία της ανακρίβειας και της ασυμφωνίας. Εκτός του ότι είναι επίπονη, η ανθρώπινη κρίση είναι επιρρεπής σε σφάλματα και υπόκειται σε μεγαλύτερη μεταβλητότητα και μεροληψία. Οι μελλοντικές μελέτες θα εφαρμόσουν αναμφίβολα αμερόληπτες προσεγγίσεις, χρησιμοποιώντας ποσοτική επεξεργασία φυσικής γλώσσας και εργαλεία εξόρυξης κειμένου, όπως η ανάλυση δικτύων λέξεων. Εκτός από την αύξηση της εγκυρότητας και την επιτάχυνση της απόδοσης κατά πολλές τάξεις μεγέθους, οι μέθοδοι αυτές είναι πιθανό να χαρακτηρίσουν καλύτερα το βάθος, τη συνοχή και τη μαθησιακή αξία των αποτελεσμάτων της ΤΝ. Τέλος, για να εκτιμηθεί πραγματικά η χρησιμότητα της δημιουργικής γλωσσικής ΤΝ για την ιατρική εκπαίδευση, το ChatGPT και οι σχετικές εφαρμογές πρέπει να μελετηθούν τόσο σε ελεγχόμενα όσο και σε πραγματικά μαθησιακά σενάρια με φοιτητές σε όλο το φάσμα της δέσμευσης και των γνώσεων.

Πέρα από τη χρησιμότητά της για την ιατρική εκπαίδευση, η τεχνητή νοημοσύνη είναι πλέον σε θέση να γίνει σύντομα πανταχού παρούσα στην κλινική πρακτική, με ποικίλες εφαρμογές σε όλους τους τομείς της υγειονομικής περίθαλψης. Η διερεύνηση της ΤΝ έχει πλέον εισέλθει στην εποχή των τυχαιοποιημένων ελεγχόμενων δοκιμών. Επιπλέον, μια πληθώρα ρεαλιστικών και παρατηρησιακών μελετών υποστηρίζει έναν πολύπλευρο ρόλο της ΤΝ σε όλους σχεδόν τους ιατρικούς κλάδους και ειδικότητες βελτιώνοντας την αξιολόγηση του κινδύνου, τη μείωση των δεδομένων, την υποστήριξη κλινικών αποφάσεων, τη λειτουργική αποτελεσματικότητα και την επικοινωνία με τους ασθενείς.

Εμπνευσμένοι από τις αξιοσημείωτες επιδόσεις του ChatGPT στο USMLE, οι κλινικοί ιατροί στο πλαίσιο της AnsibleHealth, μιας εικονικής κλινικής χρόνιας πνευμονοπάθειας, άρχισαν να πειραματίζονται με το ChatGPT ως μέρος των ροών εργασίας τους. Εισάγοντας ερωτήματα με ασφαλή και μη ταυτοποιημένο τρόπο, οι κλινικοί γιατροί μας ζητούν το ChatGPT για να βοηθήσουν σε παραδοσιακά επαχθείς εργασίες συγγραφής, όπως η σύνταξη επιστολών έφεσης προς τους φορείς πληρωμής, η απλοποίηση ακτινολογικών αναφορών (και άλλων αρχείων με πυκνή ορολογία) για να διευκολύνουν την κατανόηση από τον ασθενή, και ακόμη και για να κάνουν καταιγισμό ιδεών και να εμπνέουν διορατικότητα όταν αντιμετωπίζουν νεφελώδεις και διαγνωστικά δύσκολες περιπτώσεις. Πιστεύουμε ότι τα LLM όπως το ChatGPT φτάνουν σε ένα επίπεδο ωριμότητας που σύντομα θα επηρεάσει την κλινική ιατρική σε μεγάλο βαθμό, ενισχύοντας την παροχή εξατομικευμένης, συμπονετικής και κλιμακούμενης υγειονομικής περίθαλψης.

Πηγή: Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models