Τεχνολογία

Μελέτη: Η τεχνητή νοημοσύνη είναι χειρότερη στην αναγνώριση εικόνων από τους ανθρώπους

Μελέτη: Η τεχνητή νοημοσύνη είναι χειρότερη στην αναγνώριση εικόνων από τους ανθρώπους
Μελέτη: Τα περισσότερα μοντέλα τεχνητής νοημοσύνης δεν είναι σε θέση να αναπαραστήσουν χαρακτηριστικά της ανθρώπινης όρασης, γεγονός που τα κάνει χειρότερα στην αναγνώριση εικόνων.

Your browser does not support the video tag. https://grx-obj.adman.gr/grx/creatives/sanofi/20876/better-understanding-insulin.mp4

Ερευνητές από το Πανεπιστήμιο HSE και το Πολυτεχνείο της Μόσχας ανακάλυψαν ότι τα μοντέλα τεχνητής νοημοσύνης δεν είναι σε θέση να αναπαραστήσουν χαρακτηριστικά της ανθρώπινης όρασης λόγω έλλειψης στενής σύζευξης με την αντίστοιχη φυσιολογία, επομένως είναι χειρότερα στην αναγνώριση εικόνων. Τα αποτελέσματα της μελέτης δημοσιεύτηκαν στο Proceedings of the Seventh International Congress on Information and Communication Technology.


Τεχνητή Νοημοσύνη

Για να κατανοήσουν πώς η μηχανική αντίληψη των εικόνων διαφέρει από την ανθρώπινη αντίληψη, Ρώσοι επιστήμονες ανέβασαν εικόνες κλασικών οπτικών ψευδαισθήσεων στην ηλεκτρονική υπηρεσία IBM Watson Visual Recognition. Τα περισσότερα από αυτά ήταν γεωμετρικές σιλουέτες, εν μέρει κρυμμένες από γεωμετρικά σχήματα του χρώματος του φόντου. Το σύστημα προσπάθησε να προσδιορίσει τη φύση της εικόνας και έδειξε τον βαθμό βεβαιότητας στην απόκρισή της. Αποδείχθηκε ότι η τεχνητή νοημοσύνη δεν είναι σε θέση να αναγνωρίσει καμία φανταστική φιγούρα, με εξαίρεση ένα έγχρωμο φανταστικό τρίγωνο.

Λόγω της υψηλής αντίθεσης με το φόντο, αναγνωρίστηκε σωστά. «Αντικείμενα παρόμοια με αυτά που χρησιμοποιήσαμε κατά τη διάρκεια του πειράματος μπορούν να βρεθούν στην πραγματική ζωή», λέει ο Vladimir Vinnikov, αναλυτής στο Εργαστήριο Μεθόδων για την Ανάλυση Μεγάλων Δεδομένων της HSE Faculty of Computer Science και συγγραφέας της μελέτης. «Για παράδειγμα, ο αυτόματος πιλότος ενός αυτοκινήτου ή ενός αεροπλάνου αντιλαμβάνεται ένα τρέιλερ ή έναν ραδιοπύργο, που τη νύχτα υποδεικνύονται μόνο από τα φώτα σήμανσης, με τον ίδιο τρόπο που αντιλαμβανόμαστε τα φανταστικά γεωμετρικά σχήματα». Το ανθρώπινο μάτι κινείται συνεχώς ακούσια και η φωτοευαίσθητη επιφάνεια του αμφιβληστροειδούς του έχει το σχήμα ημισφαιρίου. Ένα άτομο μπορεί να δει μια ψευδαίσθηση εάν η εικόνα είναι διάνυσμα, δηλαδή εάν περιλαμβάνει σημεία αναφοράς και καμπύλες που τα συνδέουν. Η ανθρώπινη φαντασία θα ολοκληρώσει την εικόνα λόγω της συνεχούς κίνησης των ματιών, ένα φυσιολογικό χαρακτηριστικό της όρασής μας.

Στα οπτοηλεκτρονικά συστήματα όλα τακτοποιούνται διαφορετικά. Η φωτοευαίσθητη μήτρα τους έχει ένα επίπεδο, συνήθως ορθογώνιο σχήμα και το ίδιο το σύστημα φακών δεν είναι τόσο ελεύθερο σε κίνηση όσο το ανθρώπινο μάτι. Επομένως, η τεχνητή νοημοσύνη δεν μπορεί να ολοκληρώσει τις φανταστικές γραμμές που συνδέουν θραύσματα μιας γεωμετρικής ψευδαίσθησης.

Η μηχανική όραση βλέπει μόνο αυτό που πραγματικά απεικονίζεται, ενώ οι άνθρωποι ολοκληρώνουν την εικόνα στη φαντασία τους με βάση τα περιγράμματα της. Σήμερα, τα συστήματα αναγνώρισης εικόνας νευρωνικών δικτύων εξαπλώνονται ενεργά στον εμπορικό τομέα. Ωστόσο, το ζήτημα της ακρίβειας των μηχανημάτων αναγνωρίζει τις εικόνες είναι ακόμα ανοιχτό. Οι ανθρώπινες ζωές μπορεί να εξαρτώνται από την ακρίβεια της αναγνώρισης. Για παράδειγμα, ένα ατύχημα μπορεί να συμβεί εάν ο αυτόματος πιλότος ενός αυτοκινήτου ή ενός αεροπλάνου δεν αναγνωρίσει ένα αντικείμενο με χαμηλή αντίθεση σε σχέση με το φόντο και δεν είναι σε θέση να αποφύγει εγκαίρως ένα εμπόδιο.

Οι επιστήμονες πιστεύουν ότι η ανακρίβεια της αναγνώρισης εικόνας μηχανής μπορεί να διορθωθεί. Για παράδειγμα, μπορούν να συμπληρώσουν την αναγνώριση εικόνων ράστερ, που αντιπροσωπεύουν ένα πλέγμα εικονοστοιχείων, προσομοιώνοντας φυσιολογικά χαρακτηριστικά της κίνησης των ματιών που επιτρέπουν στο μάτι να βλέπει δισδιάστατες και τρισδιάστατες σκηνές. Ένας εναλλακτικός τρόπος είναι η προσθήκη διανυσματικής περιγραφής των εικόνων, η οποία θα βοηθήσει στον προγραμματισμό του μηχανήματος ώστε να παρακάμψει την εικόνα κατά μήκος των τροχιών που καθορίζονται από τα διανύσματα. «Τα φανταστικά αντικείμενα πρέπει οπωσδήποτε να χρησιμοποιούνται ως δοκιμές σε συστήματα που εξαρτώνται από την αναγνώριση ροών φωτογραφιών και βίντεο, για παράδειγμα, σε αυτόματους πιλότους αυτοκινήτων ή drones. Αυτό θα βοηθήσει στην αποφυγή των κινδύνων που συνδέονται με τη χρήση συστημάτων νοημοσύνης μηχανών στη βιομηχανία και τα συστήματα μεταφορών», πιστεύει ο Vladimir Vinnikov.