Τέλος στα μικρόφωνα: AI αισθητήρας «ακούει» τη σιωπηλή ομιλία

Science

Ερευνητές του POSTECH παρουσίασαν φορετό αισθητήρα λαιμού που μετατρέπει τις μικροκινήσεις των μυών σε συνθεμένη φωνή χάρη σε AI.

AI logo

Σύνοψη

  • Ο νέος αισθητήρας σιωπηλής ομιλίας από το κορεατικό POSTECH συνδυάζει οπτικό αισθητήρα παραμόρφωσης CVOS με τεχνητή νοημοσύνη, μετατρέποντας τις κινήσεις των μυών του λαιμού σε καθαρή φωνή.

  • Το σύστημα φοριέται ως περιλαίμιο, αποκωδικοποιεί το φωνητικό αλφάβητο NATO και μπορεί να αναπαράγει τη φωνή του ίδιου του χρήστη.

  • Οι εφαρμογές καλύπτουν ασθενείς με απώλεια φωνής, εργαζόμενους σε θορυβώδη περιβάλλοντα και στρατιωτικές επιχειρήσεις.

Ερευνητές από το Πανεπιστήμιο Επιστημών και Τεχνολογίας Pohang (POSTECH) της Νότιας Κορέας παρουσίασαν φορετό αισθητήρα λαιμού που «διαβάζει» τις μικροκινήσεις των μυών του λάρυγγα και τις μετατρέπει σε καθαρή, συνθεμένη ομιλία — ακόμη και όταν ο χρήστης δεν βγάζει κανέναν ήχο. Η μελέτη, που δημοσιεύθηκε στο επιστημονικό περιοδικό Cyborg and Bionic Systems, απευθύνεται τόσο σε ανθρώπους που έχουν χάσει τη φωνή τους λόγω ασθένειας ή χειρουργικής επέμβασης όσο και σε επαγγελματίες που εργάζονται σε εξαιρετικά θορυβώδη περιβάλλοντα.

Πώς λειτουργεί η τεχνολογία CVOS

Η καρδιά του συστήματος είναι ένας αισθητήρας οπτικής παραμόρφωσης με υπολογιστική όραση, γνωστός ως CVOS (Computer Vision-Based Optical Strain). Πρόκειται για έναν μαλακό υποστρωματικό δίσκο από σιλικόνη Ecoflex, ο οποίος φέρει μικροσκοπικούς μαύρους δείκτες πάνω σε λευκό φόντο. Ενσωματωμένα στη διάταξη βρίσκονται μια μικροσκοπική κάμερα, ένας συμπαγής φακός μικροσκοπίου και μια πηγή φωτισμού LED. Όλα αυτά τοποθετούνται σε ένα φορετό περιλαίμιο τύπου choker γύρω από τον λαιμό.

Όταν ο χρήστης αρθρώνει λέξεις — με ή χωρίς ήχο — οι μύες του λαιμού επεκτείνονται, συστέλλονται και στρέφονται προς διάφορες κατευθύνσεις. Η κάμερα καταγράφει τη μετατόπιση των δεικτών σε δύο διαστάσεις, δημιουργώντας έναν λεπτομερή χάρτη πολυαξονικής παραμόρφωσης. Σε αντίθεση με παλαιότερους αισθητήρες που κατέγραφαν την κίνηση σε έναν μόνο άξονα, το CVOS αποτυπώνει ταυτόχρονα το μέγεθος και την κατεύθυνση της τάσης.

Προσωποποίηση φωνής

Ένα σημαντικό στοιχείο είναι η προσωποποίηση της φωνής. Με δείγμα ηχογράφησης διάρκειας μόλις 10 λεπτών, το σύστημα μπορεί να ανακατασκευάσει τη δική σου φωνή. Αυτό σημαίνει ότι ένας ασθενής που πρόκειται να υποβληθεί σε λαρυγγεκτομή θα μπορούσε θεωρητικά να «αποθηκεύσει» τη φωνή του πριν την επέμβαση και να τη χρησιμοποιεί αργότερα μέσω του αισθητήρα, αντί για τον χαρακτηριστικό ρομποτικό ήχο των παραδοσιακών ηλεκτρονικών λαρυγγικών συσκευών.

Από το εργοστάσιο μέχρι την εφαρμογή

Οι παραδοσιακές λύσεις σιωπηλής ομιλίας βασίζονταν σε EEG (ηλεκτροεγκεφαλογραφία) ή EMG (ηλεκτρομυογραφία), δηλαδή σε ηλεκτρόδια που απαιτούν gel, δύσκολη προσαρμογή στο δέρμα και εργαστηριακές συνθήκες. Το νέο σύστημα αντιμετωπίζει ακριβώς αυτά τα μειονεκτήματα, καθώς είναι φορετό, μη επεμβατικό και δουλεύει χωρίς ηλεκτρόδια.

Η ερευνητική ομάδα παρουσίασε μια εντυπωσιακή επίδειξη: ο χρήστης εκτελούσε βολές με τυφέκιο ενώ ταυτόχρονα «μιλούσε» σιωπηλά, και το σύστημα μετέδιδε ασύρματα τα αποκωδικοποιημένα μηνύματα σε άλλο δωμάτιο, όπου ακούγονταν ως καθαρός ήχος. Πέρα από στρατιωτικές εφαρμογές, οι ερευνητές στοχεύουν σε εργοτάξια, βιομηχανικές εγκαταστάσεις και υπηρεσίες έκτακτης ανάγκης, όπου τα μικρόφωνα αποτυγχάνουν λόγω θορύβου. Παράλληλες χρήσεις περιλαμβάνουν βιβλιοθήκες, συνεδριακές αίθουσες και θέατρα, όπου χρειάζεται επικοινωνία χωρίς παραγωγή ήχου.

Επόμενα βήματα της έρευνας

Σύμφωνα με ανακοίνωση του POSTECH, η ομάδα υπό τον καθηγητή Sung-Min Park θα επικεντρωθεί στην επέκταση του λεξιλογίου πέρα από το αλφάβητο, στη βελτίωση της ανθεκτικότητας σε κινητικές παρεμβολές — πιθανώς μέσω ενσωμάτωσης αδρανειακών μονάδων μέτρησης (IMU) — και στην εργονομία της συσκευής για μακροχρόνια χρήση. Ο επικεφαλής της μελέτης σχεδίασε το σύστημα ώστε να μπορεί να τρέχει σε μικρές συσκευές edge computing, κάτι που ανοίγει τον δρόμο για πρακτική καθημερινή χρήση.

Η άποψή μας στο Techblog

Το κύριο στοίχημα εδώ δεν είναι ο εντυπωσιασμός, αλλά η αξιοπιστία σε πραγματικές συνθήκες — και σε αυτό η νοτιοκορεατική ομάδα φαίνεται να έχει κάνει σοβαρή δουλειά, όπως δείχνει η επίδειξη μέσα σε περιβάλλον πυροβολισμών. Η πιο άμεση αξία βρίσκεται στον τομέα της υγείας, όπου μια τέτοια τεχνολογία θα μπορούσε να δώσει ξανά φωνή σε ασθενείς μετά από λαρυγγεκτομή, διατηρώντας μάλιστα την προσωπική τους ταυτότητα ήχου. Μένει να δούμε πόσο γρήγορα θα φτάσει από το εργαστήριο στην αγορά, ειδικά με δεδομένο ότι το λεξιλόγιο των 26 λέξεων παραμένει περιοριστικό για εμπορική κυκλοφορία.

Συχνές Ερωτήσεις

Τι είναι ο αισθητήρας CVOS;

Είναι ένας οπτικός αισθητήρας παραμόρφωσης που αποτελείται από σιλικόνη με μικρούς δείκτες, κάμερα και LED, ο οποίος καταγράφει τις κινήσεις των μυών του λαιμού σε δύο άξονες.

Χρειάζεται να βγάλει ήχο ο χρήστης;

Όχι, το σύστημα λειτουργεί εντελώς σιωπηλά, καθώς διαβάζει τη μηχανική κίνηση των μυών και όχι τα ηχητικά κύματα.

Ποιες λέξεις αναγνωρίζει ο αισθητήρας;

Αυτή τη στιγμή αναγνωρίζει τις 26 λέξεις του φωνητικού αλφαβήτου NATO, με την ομάδα να εργάζεται για επέκταση του λεξιλογίου.

Μπορεί να αναπαράγει τη φωνή του χρήστη;

Ναι, αρκούν 10 λεπτά ηχογράφησης για να ανακατασκευαστεί η προσωπική φωνή του χρήστη αντί για ρομποτικό ήχο.

Ποιοι μπορούν να ωφεληθούν από αυτή την τεχνολογία;

Ασθενείς μετά από λαρυγγεκτομή ή με διαταραχές φωνής, εργαζόμενοι σε εργοστάσια και εργοτάξια, καθώς και χρήστες που χρειάζονται σιωπηλή επικοινωνία σε βιβλιοθήκες ή στρατιωτικές επιχειρήσεις.

Newsletter Techblog
Κάθε Παρασκευή στις 19:00 — smartphones, προσφορές, επιλογές. Χωρίς spam.

Με την εγγραφή σας αποδέχεστε την Πολιτική Απορρήτου.

Σχόλια

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Ροή ειδήσεων