Τα μοντέλα τεχνητής νοημοσύνης στην υγειονομική περίθαλψη είναι ένα δίκοπο μαχαίρι, με μοντέλα που βελτιώνουν τις διαγνωστικές αποφάσεις για ορισμένα δημογραφικά στοιχεία, αλλά επιδεινώνουν τις αποφάσεις για άλλα όταν το μοντέλο AI έχει απορροφήσει μεροληπτικά ιατρικά δεδομένα.
Δεδομένων των πολύ πραγματικών κινδύνων για τη ζωή και τον θάνατο της λήψης κλινικών αποφάσεων, οι ερευνητές και οι υπεύθυνοι χάραξης πολιτικής λαμβάνουν μέτρα για να διασφαλίσουν ότι τα μοντέλα τεχνητής νοημοσύνης είναι ασφαλή, ασφαλή και αξιόπιστα—και ότι η χρήση τους θα οδηγήσει σε βελτιωμένα αποτελέσματα.
Η Υπηρεσία Τροφίμων και Φαρμάκων των ΗΠΑ έχει την επίβλεψη του λογισμικού που υποστηρίζεται από τεχνητή νοημοσύνη και μηχανική εκμάθηση που χρησιμοποιείται στην υγειονομική περίθαλψη και έχει εκδώσει οδηγίες για τους προγραμματιστές. Αυτό περιλαμβάνει μια έκκληση για να διασφαλιστεί ότι η λογική που χρησιμοποιείται από τα μοντέλα τεχνητής νοημοσύνης είναι διαφανής ή εξηγήσιμη, ώστε οι κλινικοί γιατροί να μπορούν να επανεξετάσουν το υποκείμενο σκεπτικό.
Ωστόσο, μια νέα μελέτη με τίτλο “Measuring the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized Survey Vignette Multicenter Study” στο JAMA διαπιστώνει ότι ακόμη και με παρεχόμενες εξηγήσεις τεχνητής νοημοσύνης, οι κλινικοί γιατροί μπορούν να ξεγελαστούν από προκατειλημμένα μοντέλα τεχνητής νοημοσύνης.
«Το πρόβλημα είναι ότι ο κλινικός ιατρός πρέπει να καταλάβει τι μεταδίδει η εξήγηση και την ίδια την εξήγηση», είπε η πρώτη συγγραφέας Sarah Jabbour, Ph.D. υποψήφιος στην επιστήμη και τη μηχανική υπολογιστών στο College of Engineering του Πανεπιστημίου του Michigan. Η ομάδα U-M μελέτησε μοντέλα τεχνητής νοημοσύνης και εξηγήσεις τεχνητής νοημοσύνης σε ασθενείς με οξεία αναπνευστική ανεπάρκεια.
“Ο προσδιορισμός γιατί ένας ασθενής έχει αναπνευστική ανεπάρκεια μπορεί να είναι δύσκολος. Στη μελέτη μας, βρήκαμε ότι η βασική διαγνωστική ακρίβεια των κλινικών ιατρών είναι περίπου 73%,” δήλωσε ο Michael Sjoding, M.D., αναπληρωτής καθηγητής εσωτερικής ιατρικής στην Ιατρική Σχολή U-M, συν-ανώτερος συγγραφέας στη μελέτη.
“Κατά τη διάρκεια της κανονικής διαγνωστικής διαδικασίας, σκεφτόμαστε το ιστορικό ενός ασθενούς, τις εργαστηριακές εξετάσεις και τα αποτελέσματα απεικόνισης και προσπαθούμε να συνθέσουμε αυτές τις πληροφορίες και να καταλήξουμε σε μια διάγνωση. Είναι λογικό ότι ένα μοντέλο θα μπορούσε να βοηθήσει στη βελτίωση της ακρίβειας.”
Jabbour, Sjoding, συν-ανώτερος συγγραφέας, Jenna Wiens, Ph.D., αναπληρώτρια καθηγήτρια επιστήμης και μηχανικής υπολογιστών και η διεπιστημονική ομάδα τους σχεδίασαν μια μελέτη για την αξιολόγηση της διαγνωστικής ακρίβειας 457 νοσοκομειακών γιατρών, νοσηλευτών και βοηθών ιατρών με και χωρίς βοήθεια από ένα μοντέλο AI.
Κάθε κλινικός ιατρός κλήθηκε να κάνει συστάσεις θεραπείας με βάση τις διαγνώσεις του. Οι μισοί τυχαιοποιήθηκαν για να λάβουν επεξήγηση τεχνητής νοημοσύνης με την απόφαση μοντέλου τεχνητής νοημοσύνης, ενώ οι άλλοι μισοί έλαβαν μόνο την απόφαση τεχνητής νοημοσύνης χωρίς καμία εξήγηση. Στη συνέχεια δόθηκαν στους κλινικούς γιατρούς πραγματικές κλινικές βινιέτες ασθενών με αναπνευστική ανεπάρκεια, καθώς και μια βαθμολογία από το μοντέλο AI για το εάν ο ασθενής είχε πνευμονία, καρδιακή ανεπάρκεια ή ΧΑΠ.
Στους μισούς από τους συμμετέχοντες που τυχαιοποιήθηκαν για να δουν εξηγήσεις, ο κλινικός ιατρός έλαβε έναν θερμικό χάρτη ή οπτική αναπαράσταση του σημείου που το μοντέλο AI έψαχνε στην ακτινογραφία θώρακα, η οποία χρησίμευσε ως βάση για τη διάγνωση. Η ομάδα διαπίστωσε ότι οι κλινικοί γιατροί στους οποίους παρουσιάστηκε ένα μοντέλο τεχνητής νοημοσύνης εκπαιδευμένο να κάνουν λογικά ακριβείς προβλέψεις, αλλά χωρίς εξηγήσεις, είχαν τη δική τους αύξηση της ακρίβειας κατά 2,9 ποσοστιαίες μονάδες.
Όταν δόθηκε εξήγηση, η ακρίβειά τους αυξήθηκε κατά 4,4 ποσοστιαίες μονάδες. Ωστόσο, για να ελέγξει εάν μια εξήγηση θα μπορούσε να επιτρέψει στους κλινικούς ιατρούς να αναγνωρίσουν πότε ένα μοντέλο τεχνητής νοημοσύνης είναι σαφώς προκατειλημμένο ή λανθασμένο, η ομάδα παρουσίασε επίσης στους κλινικούς ιατρούς μοντέλα που εκπαιδεύτηκαν σκόπιμα να είναι προκατειλημμένα – για παράδειγμα, ένα μοντέλο που προβλέπει υψηλή πιθανότητα πνευμονίας εάν ο ασθενής ήταν 80 ετών και άνω.
“Τα μοντέλα τεχνητής νοημοσύνης είναι επιρρεπή σε συντομεύσεις ή ψευδείς συσχετισμούς στα δεδομένα εκπαίδευσης. Δεδομένου ενός συνόλου δεδομένων στο οποίο οι γυναίκες υποδιαγιγνώσκονται με καρδιακή ανεπάρκεια, το μοντέλο θα μπορούσε να εντοπίσει μια συσχέτιση μεταξύ του να είναι γυναίκες και να διατρέχουν χαμηλότερο κίνδυνο καρδιακής ανεπάρκειας”, εξήγησε η Wiens. Η παρατηρούμενη πτώση στην απόδοση ευθυγραμμίζεται με προηγούμενες μελέτες που βρήκαν ότι οι χρήστες μπορεί να εξαπατηθούν από τα μοντέλα, σημείωσε η ομάδα.