Η ιατρική τεχνητή νοημοσύνη της Google καταστρέφει το σημείο αναφοράς της GPT και υπερέχει των γιατρών

08/05/2024 | | |

Περίληψη άρθρου:

Η Google Research και η DeepMind παρουσίασαν το Med-Gemini, ένα προηγμένο μοντέλο τεχνητής νοημοσύνης που ειδικεύεται στην ιατρική. Ενισχύει την κλινική διάγνωση και στοχεύει στην εξομοίωση των δυνατοτήτων των γιατρών του πραγματικού κόσμου, ενσωματώνοντας λειτουργίες πολυτροπικής επεξεργασίας και διαδικτυακής αναζήτησης. Το Med-Gemini ξεπέρασε τα προηγούμενα μοντέλα σε ιατρικά benchmarks, δείχνοντας πολλά υποσχόμενο στην κατανόηση πολύπλοκων ιατρικών πληροφοριών και στη βελτίωση της κλινικής συλλογιστικής. Αν και απαιτείται περαιτέρω έρευνα, οι ικανότητες του μοντέλου έχουν δυνατότητες για τη βελτίωση της φροντίδας των ασθενών και της λήψης ιατρικών αποφάσεων, ενώ παράλληλα υπογραμμίζουν τη σημασία της ιδιωτικότητας και της δικαιοσύνης στην ανάπτυξη της τεχνητής νοημοσύνης για εφαρμογές υγειονομικής περίθαλψης.

Κύρια σημεία του άρθρου:

Η Google Research και η DeepMind παρουσίασαν λεπτομερώς την εμβέλεια του Med-Gemini, ενός προηγμένου μοντέλου τεχνητής νοημοσύνης στην ιατρική
Τα μοντέλα Med-Gemini ειδικεύονται στην κλινική διάγνωση με δυνατότητες στον πραγματικό κόσμο
Το Med-Gemini είναι ένα πολυτροπικό μοντέλο τεχνητής νοημοσύνης που επεξεργάζεται πληροφορίες από κείμενο, εικόνες, βίντεο και ήχο
Ενσωματώνει αυτοεκπαίδευση, δυνατότητες αναζήτησης στο διαδίκτυο και νέα σύνολα δεδομένων για συλλογισμό και αναζήτηση
Το Med-Gemini ξεπέρασε τα προηγούμενα μοντέλα σε ιατρικά benchmarks, συμπεριλαμβανομένου του USMLE benchmark
Το μοντέλο δοκιμάστηκε για την ανάκτηση συγκεκριμένων πληροφοριών από μακροσκελή ηλεκτρονικά αρχεία υγείας

Αναλυτικά το άρθρο:

Η Google Research και το ερευνητικό εργαστήριο Τεχνητής Νοημοσύνης της Google, DeepMind, παρουσίασαν λεπτομερώς την εντυπωσιακή εμβέλεια του Med-Gemini, μιας οικογένειας προηγμένων μοντέλων Τεχνητής Νοημοσύνης εξειδικευμένων στην ιατρική. Πρόκειται για μια τεράστια πρόοδο στην κλινική διάγνωση με τεράστιες δυνατότητες στον πραγματικό κόσμο.

Οι γιατροί αντιμετωπίζουν καθημερινά πλήθος ασθενών, με ανάγκες που κυμαίνονται από απλές έως πολύ σύνθετες. Για να παρέχουν αποτελεσματική φροντίδα, πρέπει να είναι εξοικειωμένοι με τον φάκελο υγείας κάθε ασθενούς και να ενημερώνονται για τις νεότερες διαδικασίες και θεραπείες. Και έπειτα, υπάρχει και η τόσο σημαντική σχέση γιατρού-ασθενούς, η οποία βασίζεται στην ενσυναίσθηση, την εμπιστοσύνη και την επικοινωνία. Για να μπορέσει μια τεχνητή νοημοσύνη να πλησιάσει στην εξομοίωση ενός πραγματικού γιατρού, πρέπει να είναι σε θέση να κάνει όλα αυτά τα πράγματα.

Η διασταύρωση της τεχνητής νοημοσύνης και της ιατρικής έχει πραγματικά απογειωθεί.

Τους τελευταίους έξι μήνες, το New Atlas έχει αναφερθεί σε μοντέλα τεχνητής νοημοσύνης που βοηθούν λιγότερο έμπειρους γιατρούς στον εντοπισμό των πρόδρομων παραγόντων του καρκίνου του παχέος εντέρου, στη διάγνωση του παιδικού αυτισμού από εικόνες ματιών και στην πρόβλεψη σε πραγματικό χρόνο εάν ένας χειρουργός έχει αφαιρέσει όλο τον καρκινικό ιστό κατά τη διάρκεια χειρουργικής επέμβασης για τον καρκίνο του μαστού. Αλλά η Med-Gemini είναι κάτι άλλο.

Τα μοντέλα Gemini της Google είναι μια νέα γενιά πολυτροπικών μοντέλων τεχνητής νοημοσύνης, που σημαίνει ότι μπορούν να επεξεργάζονται πληροφορίες από διαφορετικές μορφές, όπως κείμενο, εικόνες, βίντεο και ήχο. Τα μοντέλα είναι επιδέξια στη γλώσσα και τη συνομιλία, στην κατανόηση των ποικίλων πληροφοριών στις οποίες εκπαιδεύονται και σε αυτό που ονομάζεται «συλλογισμός μακράς διάρκειας», ή συλλογισμός από μεγάλες ποσότητες δεδομένων, όπως ώρες βίντεο ή δεκάδες ώρες ήχου.

Το Med-Gemini διαθέτει όλα τα πλεονεκτήματα των θεμελιωδών μοντέλων Gemini, αλλά τα έχει τελειοποιήσει. Οι ερευνητές δοκίμασαν αυτές τις βελτιώσεις που επικεντρώνονται στα φάρμακα και συμπεριέλαβαν τα αποτελέσματά τους στην εργασία.

Υπάρχουν πολλά στο έγγραφο των 58 σελίδων- επιλέξαμε τα πιο εντυπωσιακά κομμάτια.

Δυνατότητες αυτοεκπαίδευσης και διαδικτυακής αναζήτησης

Η κατάληξη σε μια διάγνωση και η διαμόρφωση ενός σχεδίου θεραπείας απαιτεί από τους γιατρούς να συνδυάσουν τις δικές τους ιατρικές γνώσεις με μια σειρά άλλων σχετικών πληροφοριών: τα συμπτώματα του ασθενούς, το ιατρικό, χειρουργικό και κοινωνικό ιστορικό, τα εργαστηριακά αποτελέσματα και τα αποτελέσματα άλλων διερευνητικών εξετάσεων, καθώς και την ανταπόκριση του ασθενούς σε προηγούμενη θεραπεία. Οι θεραπείες είναι μια «κινητή γιορτή», με τις υπάρχουσες να επικαιροποιούνται και νέες να εισάγονται. Όλα αυτά τα πράγματα επηρεάζουν το κλινικό σκεπτικό ενός γιατρού.

Αυτός είναι ο λόγος για τον οποίο, με το Med-Gemini, η Google συμπεριέλαβε την πρόσβαση σε διαδικτυακές αναζητήσεις για να καταστεί δυνατή η πιο προηγμένη κλινική συλλογιστική. Όπως και πολλά μεγάλα γλωσσικά μοντέλα (LLM) με επίκεντρο την ιατρική, το Med-Gemini εκπαιδεύτηκε σε ερωτήσεις MedQA, ερωτήσεις πολλαπλής επιλογής αντιπροσωπευτικές των ερωτήσεων για τις εξετάσεις ιατρικής άδειας των ΗΠΑ (USMLE), οι οποίες έχουν σχεδιαστεί για να ελέγχουν τις ιατρικές γνώσεις και τη συλλογιστική σε διάφορα σενάρια.

Σύνδεσμος της εικόνας: https://newatlas.com/technology/google-med-gemini-ai/#gallery:2

Ωστόσο, η Google ανέπτυξε επίσης δύο νέα σύνολα δεδομένων για το μοντέλο της. Το πρώτο, το MedQA-R (Reasoning), επεκτείνει το MedQA με συνθετικά παραγόμενες εξηγήσεις συλλογισμού που ονομάζονται «αλυσίδες σκέψεων» (Chain-of-Thoughts - CoTs). Το δεύτερο, MedQA-RS (Reasoning and Search), παρέχει στο μοντέλο οδηγίες για τη χρήση των αποτελεσμάτων αναζήτησης στο διαδίκτυο ως πρόσθετο πλαίσιο για τη βελτίωση της ακρίβειας των απαντήσεων. Εάν μια ιατρική ερώτηση οδηγεί σε αβέβαιη απάντηση, το μοντέλο προτρέπεται να προβεί σε αναζήτηση στο διαδίκτυο για να αποκτήσει περαιτέρω πληροφορίες για την επίλυση της αβεβαιότητας.

Το Med-Gemini δοκιμάστηκε σε 14 ιατρικά σημεία αναφοράς και σημείωσε νέα κορυφαία επίδοση (SoTA) σε 10, ξεπερνώντας την οικογένεια μοντέλων GPT-4 σε κάθε σημείο αναφοράς όπου μπορούσε να γίνει σύγκριση. Στο σημείο αναφοράς MedQA (USMLE), το Med-Gemini πέτυχε ακρίβεια 91,1% χρησιμοποιώντας τη στρατηγική αναζήτησης που καθοδηγείται από την αβεβαιότητα, ξεπερνώντας κατά 4,5% το προηγούμενο ιατρικό LLM της Google, Med-PaLM 2.

Σε επτά πολυτροπικά κριτήρια σύγκρισης, συμπεριλαμβανομένης της πρόκλησης εικόνων του New England Journal of Medicine (NEJM) (εικόνες δύσκολων κλινικών περιπτώσεων από τις οποίες γίνεται διάγνωση από έναν κατάλογο 10), το Med-Gemini είχε καλύτερες επιδόσεις από το GPT-4 με μέσο σχετικό περιθώριο 44,5%.

«Ενώ τα αποτελέσματα ... είναι ελπιδοφόρα, απαιτείται σημαντική περαιτέρω έρευνα», δήλωσαν οι ερευνητές. «Για παράδειγμα, δεν εξετάσαμε τον περιορισμό των αποτελεσμάτων αναζήτησης σε πιο έγκυρες ιατρικές πηγές, τη χρήση πολυτροπικής ανάκτησης αναζήτησης ή δεν πραγματοποιήσαμε ανάλυση σχετικά με την ακρίβεια και τη συνάφεια των αποτελεσμάτων αναζήτησης και την ποιότητα των παραπομπών. Περαιτέρω, μένει να δούμε αν μπορούν να διδαχθούν και οι μικρότεροι LLM να κάνουν χρήση της διαδικτυακής αναζήτησης. Αφήνουμε αυτές τις διερευνήσεις για μελλοντικές εργασίες».

Ανάκτηση συγκεκριμένων πληροφοριών από μακροχρόνιους ηλεκτρονικούς φακέλους υγείας

Οι ηλεκτρονικοί φάκελοι υγείας (ΗΦΥ) μπορεί να είναι μακροσκελείς, αλλά οι γιατροί πρέπει να γνωρίζουν τι περιέχουν. Για να περιπλέξουν τα πράγματα, περιέχουν συνήθως ομοιότητες κειμένου («σακχαρώδης διαβήτης» έναντι «διαβητική νεφροπάθεια»), ορθογραφικά λάθη, ακρωνύμια («Rx» έναντι «συνταγή») και συνώνυμα («εγκεφαλοαγγειακό ατύχημα» έναντι «εγκεφαλικό επεισόδιο») - πράγματα που μπορούν να αποτελέσουν πρόκληση για την ΤΝ.

Για να δοκιμάσουν την ικανότητα του Med-Gemini να κατανοεί και να συλλογίζεται από ιατρικές πληροφορίες μεγάλου περιεχομένου, οι ερευνητές έτρεξαν μια λεγόμενη «εργασία βελόνα στο σακί» χρησιμοποιώντας μια μεγάλη, δημόσια διαθέσιμη βάση δεδομένων, την Medical Information Mart for Intensive Care ή MIMIC-III, που περιέχει αποχαρακτηρισμένα δεδομένα υγείας ασθενών που εισήχθησαν σε μονάδα εντατικής θεραπείας.

Ο στόχος ήταν το μοντέλο να ανακτήσει τη σχετική αναφορά μιας σπάνιας και ανεπαίσθητης ιατρικής κατάστασης, ενός συμπτώματος ή μιας διαδικασίας («βελόνα») σε μια μεγάλη συλλογή κλινικών σημειώσεων στον ΗΦΥ («σωρός από άχυρα»).

Διακόσια παραδείγματα επιμελήθηκαν και κάθε παράδειγμα αποτελείτο από μια συλλογή απο-ταυτοποιημένων σημειώσεων EHR από 44 ασθενείς ΜΕΘ με μακρύ ιατρικό ιστορικό. Έπρεπε να έχουν τα ακόλουθα κριτήρια:

Περισσότερες από 100 ιατρικές σημειώσεις, με το μήκος κάθε παραδείγματος να κυμαίνεται από 200.000 έως 700.000 λέξεις
Σε κάθε παράδειγμα, η πάθηση αναφερόταν μόνο μία φορά
Κάθε δείγμα είχε μία μόνο κατάσταση ενδιαφέροντος

Υπήρχαν δύο στάδια για την εργασία «βελόνα στο άχυρο». Πρώτον, η Med-Gemini έπρεπε να ανακτήσει όλες τις αναφορές του συγκεκριμένου ιατρικού προβλήματος από τα εκτενή αρχεία. Δεύτερον, το μοντέλο έπρεπε να αξιολογήσει τη συνάφεια όλων των αναφορών, να τις κατηγοριοποιήσει και να συμπεράνει αν ο ασθενής είχε ιστορικό του συγκεκριμένου προβλήματος, παρέχοντας σαφή αιτιολόγηση για την απόφασή του.

Σύνδεσμος της εικόνας: https://newatlas.com/technology/google-med-gemini-ai/#gallery:3

Σε σύγκριση με τη μέθοδο SoTA, το Med-Gemini είχε καλές επιδόσεις στην εργασία «βελόνα στο σακί». Αξιολόγησε 0,77 στην ακρίβεια σε σύγκριση με τη μέθοδο SoTA (0,85) και ξεπέρασε τη μέθοδο SoTA στην ανάκληση: 0,76 έναντι 0,73.

«Ίσως η πιο αξιοσημείωτη πτυχή του Med-Gemini είναι οι δυνατότητες επεξεργασίας μεγάλου πλαισίου, επειδή ανοίγουν νέα όρια απόδοσης και νέες, προηγουμένως ανέφικτες δυνατότητες εφαρμογής για τα ιατρικά συστήματα τεχνητής νοημοσύνης», δήλωσαν οι ερευνητές. «Αυτή η εργασία ανάκτησης “βελόνας στο άχυρο” αντικατοπτρίζει μια πραγματική πρόκληση που αντιμετωπίζουν οι κλινικοί γιατροί και οι επιδόσεις του Med-Gemini-M 1.5 αποδεικνύουν τη δυνατότητά του να μειώσει σημαντικά το γνωστικό φορτίο και να αυξήσει τις δυνατότητες των κλινικών γιατρών, εξάγοντας και αναλύοντας αποτελεσματικά πληροφορίες από τεράστιες ποσότητες δεδομένων ασθενών».

Για μια εύληπτη συζήτηση αυτών των βασικών σημείων της έρευνας και μια ενημέρωση σχετικά με τη λασπολογία μεταξύ της Google και της Microsoft, δείτε το βίντεο του AI Explained από το 13:38 και μετά.

Σύνδεσμος του βίντεο: https://youtu.be/77IqNP6rNL8

Συνομιλίες με την Med-Gemini

Σε μια δοκιμή της χρησιμότητας στον πραγματικό κόσμο, το Med-Gemini ρωτήθηκε από έναν ασθενή χρήστη σχετικά με ένα κνησμώδες δερματικό εξόγκωμα. Αφού ζήτησε μια εικόνα, το μοντέλο έκανε τις κατάλληλες επακόλουθες ερωτήσεις και διέγνωσε σωστά τη σπάνια βλάβη, συνιστώντας τι πρέπει να κάνει ο χρήστης στη συνέχεια.

Σύνδεσμος της εικόνας: https://newatlas.com/technology/google-med-gemini-ai/#gallery:4

Ζητήθηκε επίσης από το Med-Gemini να ερμηνεύσει μια ακτινογραφία θώρακος για έναν ιατρό, ενώ περίμενε την επίσημη έκθεση του ακτινολόγου, και να διαμορφώσει μια απλή αγγλική έκδοση της έκθεσης που θα μπορούσε να δοθεί στον ασθενή.

Σύνδεσμος της εικόνας: https://newatlas.com/technology/google-med-gemini-ai/#gallery:5

«Οι δυνατότητες πολυτροπικής συνομιλίας του Med-Gemini-M 1.5 είναι πολλά υποσχόμενες, δεδομένου ότι επιτυγχάνονται χωρίς καμία ειδική ιατρική ρύθμιση του διαλόγου», δήλωσαν οι ερευνητές. «Τέτοιες δυνατότητες επιτρέπουν απρόσκοπτες και φυσικές αλληλεπιδράσεις μεταξύ ανθρώπων, κλινικών ιατρών και συστημάτων τεχνητής νοημοσύνης».

Ωστόσο, οι ερευνητές αναγνωρίζουν ότι απαιτείται περαιτέρω εργασία.

«Αυτή η ικανότητα έχει σημαντικές δυνατότητες για χρήσιμες εφαρμογές στον πραγματικό κόσμο, συμπεριλαμβανομένης της υποβοήθησης των κλινικών γιατρών και των ασθενών, αλλά φυσικά ενέχει επίσης πολύ σημαντικούς κινδύνους», ανέφεραν. «Αν και επισημαίνουμε τις δυνατότητες για μελλοντική έρευνα σε αυτόν τον τομέα, δεν έχουμε αξιολογήσει αυστηρά τις δυνατότητες για κλινική συνομιλία σε αυτή την εργασία, όπως διερευνήθηκε προηγουμένως από άλλους στην εξειδικευμένη έρευνα προς την κατεύθυνση της διαγνωστικής AI με συνομιλία».

Οράματα του μέλλοντος

Πού πάμε από εδώ και πέρα; Οι ερευνητές παραδέχονται ότι πρέπει να γίνει πολύ περισσότερη δουλειά, αλλά οι αρχικές δυνατότητες του μοντέλου Med-Gemini είναι σίγουρα πολλά υποσχόμενες. Είναι σημαντικό ότι σχεδιάζουν να ενσωματώσουν τις αρχές της υπεύθυνης τεχνητής νοημοσύνης, συμπεριλαμβανομένης της ιδιωτικότητας και της δικαιοσύνης, σε όλη τη διαδικασία ανάπτυξης του μοντέλου.

«Ειδικότερα, τα ζητήματα προστασίας της ιδιωτικής ζωής πρέπει να έχουν τις ρίζες τους στις υφιστάμενες πολιτικές και κανονισμούς υγειονομικής περίθαλψης που διέπουν και διασφαλίζουν τις πληροφορίες των ασθενών», δήλωσαν οι ερευνητές. «Η δικαιοσύνη είναι ένας άλλος τομέας που μπορεί να απαιτεί προσοχή, καθώς υπάρχει ο κίνδυνος τα συστήματα ΤΝ στην υγειονομική περίθαλψη να αντανακλούν ή να ενισχύουν ακούσια ιστορικές προκαταλήψεις και ανισότητες, οδηγώντας ενδεχομένως σε ανόμοιες επιδόσεις μοντέλων και επιβλαβή αποτελέσματα για περιθωριοποιημένες ομάδες».

Αλλά, τελικά, η Med-Gemini θεωρείται ως ένα εργαλείο για το καλό.

«Τα μεγάλα πολυτροπικά γλωσσικά μοντέλα εγκαινιάζουν μια νέα εποχή δυνατοτήτων για την υγεία και την ιατρική», δήλωσαν οι ερευνητές. «Οι δυνατότητες που επιδεικνύονται από το Gemini και το Med-Gemini υποδηλώνουν ένα σημαντικό άλμα προς τα εμπρός στο βάθος και το εύρος των δυνατοτήτων για την επιτάχυνση των βιοϊατρικών ανακαλύψεων και την υποβοήθηση της παροχής υγειονομικής περίθαλψης και των εμπειριών. Ωστόσο, είναι υψίστης σημασίας οι εξελίξεις στις δυνατότητες των μοντέλων να συνοδεύονται από σχολαστική προσοχή στην αξιοπιστία και την ασφάλεια αυτών των συστημάτων. Δίνοντας προτεραιότητα και στις δύο πτυχές, μπορούμε με υπευθυνότητα να οραματιστούμε ένα μέλλον όπου οι δυνατότητες των συστημάτων τεχνητής νοημοσύνης θα είναι ουσιαστικοί και ασφαλείς επιταχυντές τόσο της επιστημονικής προόδου όσο και της περίθαλψης στην ιατρική».

Πηγή: Google's medical AI destroys GPT's benchmark and outperforms doctors

Η ιατρική τεχνητή νοημοσύνη της Google καταστρέφει το σημείο αναφοράς της GPT και υπερέχει των γιατρών

Newsletter