Τα μοντέλα τεχνητής νοημοσύνης συχνά παίζουν ρόλο στις ιατρικές διαγνώσεις, ειδικά όταν πρόκειται για την ανάλυση εικόνων όπως οι ακτίνες Χ. Ωστόσο, μελέτες έχουν δείξει ότι αυτά τα μοντέλα δεν έχουν πάντα καλή απόδοση σε όλες τις δημογραφικές ομάδες, συνήθως χειρότερα στις γυναίκες και στους έγχρωμους. Αυτά τα μοντέλα έχει επίσης αποδειχθεί ότι αναπτύσσουν μερικές εκπληκτικές ικανότητες. Το 2022, ερευνητές του MIT ανέφεραν ότι τα μοντέλα τεχνητής νοημοσύνης μπορούν να κάνουν ακριβείς προβλέψεις σχετικά με τη φυλή ενός ασθενούς από τις ακτινογραφίες θώρακα – κάτι που δεν μπορούν να κάνουν οι πιο εξειδικευμένοι ακτινολόγοι.
Αυτή η ερευνητική ομάδα ανακάλυψε τώρα ότι τα μοντέλα που είναι πιο ακριβή στο να κάνουν δημογραφικές προβλέψεις εμφανίζουν επίσης τα μεγαλύτερα «κενά δικαιοσύνης»—δηλαδή, αποκλίσεις στην ικανότητά τους να διαγιγνώσκουν με ακρίβεια εικόνες ανθρώπων διαφορετικής φυλής ή φύλου. Τα ευρήματα υποδηλώνουν ότι αυτά τα μοντέλα μπορεί να χρησιμοποιούν «δημογραφικές συντομεύσεις» όταν κάνουν τις διαγνωστικές τους αξιολογήσεις, οι οποίες οδηγούν σε εσφαλμένα αποτελέσματα για τις γυναίκες, τους μαύρους και άλλες ομάδες, λένε οι ερευνητές.
“Είναι αποδεδειγμένο ότι τα μοντέλα μηχανικής μάθησης υψηλής χωρητικότητας είναι καλοί προγνωστικοί παράγοντες των ανθρώπινων δημογραφικών στοιχείων, όπως η αυτοαναφερόμενη φυλή ή φύλο ή ηλικία. Αυτό το έγγραφο επιδεικνύει εκ νέου αυτήν την ικανότητα και στη συνέχεια συνδέει αυτή την ικανότητα με την έλλειψη απόδοσης σε διάφορα ομάδες, κάτι που δεν έχει γίνει ποτέ», λέει η Marzyeh Ghassemi, αναπληρώτρια καθηγήτρια Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών στο MIT, μέλος του Ινστιτούτου Ιατρικής Μηχανικής και Επιστήμης του MIT, και ο ανώτερος συγγραφέας της μελέτης.
Οι ερευνητές ανακάλυψαν επίσης ότι θα μπορούσαν να εκπαιδεύσουν εκ νέου τα μοντέλα με τρόπο που βελτιώνει τη δικαιοσύνη τους. Ωστόσο, η προσέγγισή τους για την «αποκατάληψη» λειτούργησε καλύτερα όταν τα μοντέλα δοκιμάστηκαν στους ίδιους τύπους ασθενών στους οποίους εκπαιδεύτηκαν, όπως ασθενείς από το ίδιο νοσοκομείο. Όταν αυτά τα μοντέλα εφαρμόστηκαν σε ασθενείς από διαφορετικά νοσοκομεία, τα κενά δικαιοσύνης επανεμφανίστηκαν.
“Πιστεύω ότι οι κύριες λύσεις είναι, πρώτον, ότι θα πρέπει να αξιολογήσετε διεξοδικά τυχόν εξωτερικά μοντέλα με τα δικά σας δεδομένα, επειδή οποιαδήποτε δίκαιη εγγύηση που παρέχουν οι προγραμματιστές μοντέλων στα δεδομένα εκπαίδευσής τους ενδέχεται να μην μεταφερθούν στον πληθυσμό σας. Δεύτερον, όποτε υπάρχουν επαρκή δεδομένα, θα πρέπει να εκπαιδεύστε μοντέλα με τα δικά σας δεδομένα», λέει ο Haoran Zhang, μεταπτυχιακός φοιτητής του MIT και ένας από τους κύριους συγγραφείς της νέας εργασίας.
Ο μεταπτυχιακός φοιτητής του MIT Yuzhe Yang είναι επίσης ο κύριος συγγραφέας της εργασίας, η οποία θα εμφανιστεί στο Nature Medicine. Η Judy Gichoya, αναπληρώτρια καθηγήτρια ακτινολογίας και επιστημών απεικόνισης στην Ιατρική Σχολή του Πανεπιστημίου Emory, και η Dina Katabi, η Thuan and Nicole Pham Καθηγήτρια Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών στο MIT, είναι επίσης συγγραφείς της εργασίας.
Αφαίρεση μεροληψίας
Από τον Μάιο του 2024, η FDA ενέκρινε 882 ιατρικές συσκευές με δυνατότητα AI, με 671 από αυτές να έχουν σχεδιαστεί για χρήση στην ακτινολογία. Από το 2022, όταν η Ghassemi και οι συνεργάτες της έδειξαν ότι αυτά τα διαγνωστικά μοντέλα μπορούν να προβλέψουν με ακρίβεια τη φυλή, αυτοί και άλλοι ερευνητές έχουν δείξει ότι τέτοια μοντέλα είναι επίσης πολύ καλά στην πρόβλεψη του φύλου και της ηλικίας, παρόλο που τα μοντέλα δεν είναι εκπαιδευμένα σε αυτές τις εργασίες.
“Πολλά δημοφιλή μοντέλα μηχανικής μάθησης έχουν υπεράνθρωπη δημογραφική ικανότητα πρόβλεψης – οι ακτινολόγοι δεν μπορούν να ανιχνεύσουν τη φυλή που αναφέρουν οι ίδιοι από μια ακτινογραφία θώρακος”, λέει ο Ghassemi. «Αυτά είναι μοντέλα που είναι καλά στην πρόβλεψη ασθενειών, αλλά κατά τη διάρκεια της εκπαίδευσης μαθαίνουν να προβλέπουν άλλα πράγματα που μπορεί να μην είναι επιθυμητά».
Σε αυτή τη μελέτη, οι ερευνητές ξεκίνησαν να διερευνήσουν γιατί αυτά τα μοντέλα δεν λειτουργούν το ίδιο καλά για ορισμένες ομάδες. Συγκεκριμένα, ήθελαν να δουν εάν τα μοντέλα χρησιμοποιούσαν δημογραφικές συντομεύσεις για να κάνουν προβλέψεις που τελικά ήταν λιγότερο ακριβείς για ορισμένες ομάδες. Αυτές οι συντομεύσεις μπορούν να προκύψουν σε μοντέλα τεχνητής νοημοσύνης όταν χρησιμοποιούν δημογραφικά χαρακτηριστικά για να καθορίσουν εάν υπάρχει μια ιατρική πάθηση, αντί να βασίζονται σε άλλα χαρακτηριστικά των εικόνων.
Χρησιμοποιώντας δημόσια διαθέσιμα σύνολα δεδομένων ακτίνων Χ θώρακος από το Beth Israel Deaconess Medical Center στη Βοστώνη, οι ερευνητές εκπαίδευσαν μοντέλα για να προβλέψουν εάν οι ασθενείς είχαν μία από τις τρεις διαφορετικές ιατρικές καταστάσεις: συσσώρευση υγρού στους πνεύμονες, κατάρρευση πνεύμονα ή διεύρυνση της καρδιάς. Στη συνέχεια, δοκίμασαν τα μοντέλα σε ακτίνες Χ που συγκρατήθηκαν από τα δεδομένα εκπαίδευσης.
Συνολικά, τα μοντέλα είχαν καλή απόδοση, αλλά τα περισσότερα από αυτά εμφάνιζαν «κενά δικαιοσύνης»—δηλαδή, αποκλίσεις μεταξύ των ποσοστών ακρίβειας για άνδρες και γυναίκες και για λευκούς και μαύρους ασθενείς. Τα μοντέλα ήταν επίσης σε θέση να προβλέψουν το φύλο, τη φυλή και την ηλικία των ατόμων με ακτίνες Χ. Επιπλέον, υπήρχε σημαντική συσχέτιση μεταξύ της ακρίβειας κάθε μοντέλου στη δημιουργία δημογραφικών προβλέψεων και του μεγέθους του χάσματος δικαιοσύνης.