Τεχνολογία

Δυσαρθρία: Μπορεί να διαγνωστεί η φωνητική πάθηση από ένα τηλεφώνημα;

Δυσαρθρία: Μπορεί να διαγνωστεί η φωνητική πάθηση από ένα τηλεφώνημα;
Δυσαρθρία: Για την πρόληψη της επιδείνωσης νευροεκφυλιστικών ασθενειών όπως η νόσος του Πάρκινσον, είναι επιθυμητή η έγκαιρη διάγνωση της δυσαρθρίας, που είναι πρώιμο σύμπτωμα.

Your browser does not support the video tag. https://grx-obj.adman.gr/grx/creatives/sanofi/20876/better-understanding-insulin.mp4

Ο Επίκουρος Καθηγητής Yuya Hosoda του Κέντρου για την Εκπαίδευση Βασισμένη στην Πληροφορική (CITE), Toyohashi University of Technology έχει αναπτύξει μια μέθοδο για την εκτίμηση του ύψους των δονήσεων των φωνητικών χορδών των ανθρώπων από τον ήχο σε κάποιο τηλεφώνημα. Σε αυτή τη μέθοδο, το ύψος υπολογίζεται ενσωματώνοντας τις ποσότητες χαρακτηριστικών που εξάγονται από τα φάσματα πλάτους και φάσης της ομιλίας στο μιγαδικό επίπεδο. Μέσω πειραμάτων, αποδείχτηκε ότι η προτεινόμενη μέθοδος δεν είναι μόνο αποτελεσματική για ήχους τηλεφωνημάτων των οποίων η ζώνη συχνοτήτων περιορίζεται από τα πρότυπα επικοινωνίας, αλλά λειτουργεί επίσης σθεναρά σε περιβάλλον με θόρυβο περιβάλλοντος.


Η έρευνα δημοσιεύεται στο περιοδικό IEEE/ACM Transactions on Audio, Speech, and Language Processing. Για την πρόληψη της επιδείνωσης νευροεκφυλιστικών ασθενειών όπως η νόσος του Πάρκινσον, είναι επιθυμητή η έγκαιρη διάγνωση της δυσαρθρίας, που είναι πρώιμο σύμπτωμα. Η δυσαρθρία χαρακτηρίζεται από τρόμο στη φωνή και διαταραγμένη αναπνοή. Αν και οι κλινικές εξετάσεις διαγιγνώσκουν συμπτώματα από τη φωνή του ασθενούς, είναι χρονοβόρες και απαιτούν εργασία. Επιπλέον, η διεξαγωγή συνεντεύξεων πρόσωπο με πρόσωπο σε απομακρυσμένες τοποθεσίες όπως οι ορεινές περιοχές είναι δύσκολη.

Ως εκ τούτου, σε αυτή την έρευνα, στοχεύουμε να αναπτύξουμε ένα σύστημα που θα διαγνώσει αυτόματα τη δυσαρθρία μέσω της τηλεϊατρικής, πραγματοποιώντας γύρους θαλάμου μέσω συσκευών επικοινωνίας. Σε ασθενείς με δυσαρθρία, εμφανίζονται ανωμαλίες κατά τη διάρκεια της φωνητικής φωνής όπου η φωνή παράγεται από δονήσεις φωνητικών χορδών που παράγονται από τον αέρα που απελευθερώνεται από τους πνεύμονες στο λαιμό και τη στοματική κοιλότητα. Σε αυτή τη μελέτη, ο σκοπός μας είναι να εκτιμήσουμε την περίοδο δόνησης (ύψος) για να διαγνώσουμε την κατάσταση αυτών των δονήσεων των φωνητικών χορδών.

Μέχρι τώρα, έχει επινοηθεί μια μέθοδος μέτρησης του βήματος που είναι ισχυρή έναντι του θορύβου περιβάλλοντος με βάση τις ποσότητες χαρακτηριστικών του φάσματος πλάτους που λαμβάνονται μέσω της ανάλυσης συχνότητας της ομιλίας. Ωστόσο, λόγω των προτύπων επικοινωνίας, ο ήχος κλήσης μέσω τηλεϊατρικής δεν έχει κάποιο από το επιθυμητό φάσμα εύρους. Έτσι, η εξαγωγή ποσοτήτων χαρακτηριστικών από ένα φάσμα πλάτους με μειωμένες πληροφορίες μπορεί να οδηγήσει σε σφάλματα στην εκτίμηση του βήματος.

Σε αυτή την έρευνα, προτείνται μια μέθοδος εξαγωγής πρόσθετων μεγεθών χαρακτηριστικών από το φάσμα φάσεων, ένα υποπροϊόν της ανάλυσης συχνότητας, εκτός από το φάσμα πλάτους. Εξάγοντας μια σχεσιακή εξίσωση μεταξύ της μετατόπισης φάσης και του βήματος στις κατευθύνσεις χρόνου και συχνότητας, επαληθεύτηκε ότι το βήμα μπορεί να εκτιμηθεί εφαρμόζοντας την παρατηρούμενη μετατόπιση φάσης στη σχεσιακή εξίσωση.

Με βάση αυτό το εύρημα, εξήχθησαν νέες ποσότητες χαρακτηριστικών από το φάσμα φάσης για να αξιολογήσουμε ποσοτικά τον βαθμό προσαρμογής στη σχεσιακή εξίσωση. Τέλος, με την ενσωμάτωση των ποσοτήτων χαρακτηριστικών που εξάγονται από το φάσμα πλάτους στο μιγαδικό επίπεδο, αντισταθμίστηκε η έλλειψη ποσοτήτων χαρακτηριστικών που εμφανίζονται στην εκτίμηση του τόνου του ήχου κλήσης, διατηρώντας παράλληλα την ευρωστία έναντι του θορύβου περιβάλλοντος.

Σε προηγούμενες μελέτες που χρησιμοποιούσαν μόνο το φάσμα εύρους, καθώς η ποσότητα των πληροφοριών μειώθηκε από τον περιορισμό της ζώνης, το βήμα υπολογίστηκε ότι ήταν υψηλότερο από την αρχική τιμή. Ωστόσο, στην προτεινόμενη μέθοδο, το ύψος υπολογίζεται με ακρίβεια από τον ήχο κλήσης χρησιμοποιώντας τις ποσότητες χαρακτηριστικών που σχετίζονται με το πλάτος και τα φάσματα φάσης.

Επιπλέον, το gross pitch error (GPE), ένας δείκτης αξιολόγησης που υποδεικνύει το ποσοστό των τμημάτων όπου εμφανίστηκαν σφάλματα, βελτιώθηκε στο 9,5% στην προτεινόμενη μέθοδο, σε σύγκριση με 42,2% στην προηγούμενη μελέτη. Επιπλέον, ακόμη και για ήχο κλήσεων με θόρυβο φόντου, αυτή η μέθοδος πέτυχε GPE 15,2%, επιδεικνύοντας στιβαρότητα.