Ερευνητές από το Πανεπιστήμιο HSE και το Κρατικό Πανεπιστήμιο Ιατρικής και Οδοντιατρικής της Μόσχας έχουν σημειώσει σημαντική πρόοδο στην ανάπτυξη ενός μοντέλου μηχανικής μάθησης που μπορεί να προβλέπει λέξεις με βάση τη νευρική δραστηριότητα. Η μελέτη, που δημοσιεύθηκε στο περιοδικό Journal of Neural Engineering, χρηματοδοτήθηκε από τη ρωσική κυβέρνηση στο πλαίσιο του εθνικού προγράμματος “Επιστήμη και Πανεπιστήμια”.
Αποκωδικοποίηση της ομιλίας
Οι διαταραχές του λόγου επηρεάζουν εκατομμύρια ανθρώπους παγκοσμίως, μειώνοντας την ικανότητά τους να επικοινωνούν. Ενώ υπάρχει τεχνολογία για την αποκατάσταση της επικοινωνίας, όπως οι διεπαφές “σιωπηλής ομιλίας” που παρακολουθούν τις κινήσεις των αρθρωτικών μυών, οι συσκευές αυτές δεν είναι κατάλληλες για όλους τους ασθενείς, ιδίως για εκείνους με παράλυση των μυών του προσώπου.
Οι νευροπροσθέσεις ομιλίας ή οι διεπαφές εγκεφάλου-υπολογιστή προσφέρουν μια πιθανή λύση για την αποκατάσταση της επικοινωνίας σε αυτούς τους ασθενείς. Σε αντίθεση με τις παραδοσιακές διεπαφές, οι BCI επιτρέπουν τον άμεσο έλεγχο των συσκευών με τη χρήση εγκεφαλικών σημάτων, εξαλείφοντας την ανάγκη για πληκτρολόγια ή μικρόφωνα. Ωστόσο, η επεμβατική χειρουργική επέμβαση που απαιτείται για την εμφύτευση ηλεκτροδίων στον εγκεφαλικό ιστό αποτελεί σημαντικό εμπόδιο για την ευρεία χρήση των BCIs στην προσθετική ομιλίας.
Οι ερευνητές επικεντρώθηκαν στην ανάπτυξη μιας λειτουργικής νευροπρόθεσης ικανής να αποκωδικοποιεί με ακρίβεια την ομιλία χρησιμοποιώντας ένα μικρό σύνολο ηλεκτροδίων που εμφυτεύονται σε μια περιορισμένη περιοχή του φλοιού, χωρίς την ανάγκη επεμβατικής χειρουργικής επέμβασης. Συνέλεξαν δεδομένα από δύο ασθενείς με επιληψία στους οποίους είχαν ήδη εμφυτευτεί ενδοκρανιακά ηλεκτρόδια για προχειρουργική χαρτογράφηση.
Στον έναν ασθενή είχαν εμφυτευθεί αμφίπλευρα πέντε άξονες στερεοηλεκτροεγκεφαλογραφίας (sEEG), ο καθένας με έξι επαφές, ενώ στον άλλο εννέα λωρίδες ηλεκτροκορτικογραφίας (ECoG) με οκτώ επαφές η καθεμία. Οι ερευνητές χρησιμοποίησαν μόνο έξι επαφές από έναν άξονα sEEG και οκτώ επαφές από μία λωρίδα ECoG για να αποκωδικοποιήσουν τη νευρική δραστηριότητα.
Κατά τη διάρκεια του πειράματος, τα υποκείμενα διάβαζαν δυνατά έξι προτάσεις που παρουσιάζονταν με τυχαία σειρά, ενώ κάθε πρόταση επαναλαμβανόταν από 30 έως 60 φορές. Τα ηλεκτρόδια κατέγραφαν την εγκεφαλική τους δραστηριότητα καθώς μιλούσαν. Τα δεδομένα αυτά ευθυγραμμίστηκαν με τα ηχητικά σήματα, σχηματίζοντας 27 κλάσεις, συμπεριλαμβανομένων 26 λέξεων και μιας κλάσης σιωπής. Ένα μοντέλο μηχανικής μάθησης με αρχιτεκτονική νευρωνικού δικτύου εκπαιδεύτηκε για να προβλέψει την επόμενη εκφερόμενη λέξη με βάση την προηγούμενη νευρωνική δραστηριότητα.
Η αρχιτεκτονική του νευρωνικού δικτύου σχεδιάστηκε ώστε να είναι απλή, συμπαγής και ερμηνεύσιμη. Αποτελούνταν από δύο στάδια: εξαγωγή εσωτερικών αναπαραστάσεων ομιλίας από δεδομένα εγκεφαλικής δραστηριότητας και πρόβλεψη μιας συγκεκριμένης κλάσης (λέξη ή σιωπή). Το μοντέλο πέτυχε 55% ακρίβεια χρησιμοποιώντας δεδομένα sEEG από τον πρώτο ασθενή και 70% ακρίβεια χρησιμοποιώντας δεδομένα ECoG από τον δεύτερο ασθενή. Αυτές οι ακρίβειες ήταν συγκρίσιμες με μελέτες που χρησιμοποιούσαν ηλεκτρόδια εμφυτευμένα σε ολόκληρη την επιφάνεια του φλοιού.
Η ερμηνευσιμότητα του μοντέλου επιτρέπει στους ερευνητές να κατανοήσουν ποιες νευρικές πληροφορίες συμβάλλουν περισσότερο στην πρόβλεψη της επόμενης λέξης. Τα ευρήματα ευθυγραμμίζονται με τα αποτελέσματα της χαρτογράφησης της ομιλίας και υποδηλώνουν ότι το μοντέλο αποκωδικοποιεί τα σήματα από τον εγκέφαλο. Επιπλέον, το μοντέλο δεν απαιτεί χειροκίνητη σχεδίαση χαρακτηριστικών, καθώς μαθαίνει να εξάγει αναπαραστάσεις ομιλίας απευθείας από δεδομένα εγκεφαλικής δραστηριότητας.
Το κρίσιμο είναι ότι οι ερευνητές σημειώνουν ότι η πρόβλεψη βασίζεται αποκλειστικά στη νευρωνική δραστηριότητα που προηγείται της εκφώνησης, διασφαλίζοντας ότι ο κανόνας απόφασης δεν χρησιμοποιεί την απόκριση του ακουστικού φλοιού στην ομιλία που έχει ήδη ειπωθεί. Αυτό ελαχιστοποιεί τους κινδύνους για τους ασθενείς και οι ερευνητές οραματίζονται ένα μέλλον όπου η νευρική δραστηριότητα θα μπορεί να αποκωδικοποιείται από έναν μικρό αριθμό ελάχιστα επεμβατικών ηλεκτροδίων που εμφυτεύονται σε βάση εξωτερικών ασθενών με τοπική αναισθησία.
Η μελέτη αυτή αποτελεί σημαντική πρόοδο στον τομέα της νευροπροσθετικής της ομιλίας, προσφέροντας ελπίδα σε άτομα με διαταραχές της ομιλίας και ανοίγοντας το δρόμο για μελλοντική έρευνα και εξελίξεις στη χρήση των BCIs για την αποκατάσταση των επικοινωνιακών ικανοτήτων.