Google Google AI

Google AI: Ανέπτυξε οπτικοακουστικό μοντέλο για να ξεχωρίζουμε τις φωνές μέσα σε πλήθος

Παρασκευή, 13/04/2018 · Ιάκωβος Μπελώνιας Google Google AI

Η Google αναφέρει πως οι άνθρωποι είναι πολύ καλοί στο να ξεχωρίσουν τη φωνή που θέλουν να ακούσουν με το να στρέψουν την προσοχή τους στην πηγή από την οποία προέρχεται. Η ικανότητα αυτή ονομάζεται “cocktail party effect”, την οποία οι υπολογιστές δε διαθέτουν και για αυτό το λόγο η Google ανέπτυξε ένα τέτοιο οπτικοακουστικό μοντέλο για το διαχωρισμό ομιλίας ανάμεσα σε πολλές στον ίδιο χώρο.

Το “cocktail party effect” είναι η ικανότητα του εγκεφάλου να συγκεντρώνεται σε μια ακουστική πηγή σε χώρο που υπάρχουν και άλλες ταυτόχρονα, απομονώνοντας τις υπόλοιπες, όπως όταν βρισκόμαστε σε party και επικεντρώνουμε την προσοχή και την ακουστική μας ικανότητα σε ένα πρόσωπο, αγνοώντας τις ομιλίες των παρευρισκομένων. Ο διαχωρισμός αυτός δεν έχει να κάνει μόνο με το διαχωρισμό της φωνής αλλά και ήχων που ακούγονται ταυτόχρονα και στην ουσία ακούμε αυτόν που επιθυμούμε εμείς.

Η Google κατάφερε να παράξει video στο οποίο μπορεί να αυξήσει την ένταση της φωνής σε ορισμένους ανθρώπους που μιλάνε ενώ ταυτόχρονα μειώνει την ένταση σε άλλους που δε θέλουν να ακούγονται. Η μέθος της Google δουλεύει σε video με το “κανάλι” του ήχου να δίνει τη δυνατότητα στο θεατή του video να επιλέξει ποιόν επιθυμεί να ακούει κατά την αναπαραγωγή του video.

Αυτή η μέθοδος μπορεί να έχει εφαρμογή, σύμφωνα με τη Google, σε τηλεδιασκέψεις, στη βελτίωση ανθρώπων με προβλήματα ακοής αλλά και σε περιπτώσεις όπου μιλάνε πολλοί άνθρωποι ταυτόχρονα και πρέπει κάποιος να ακούγεται πιο δυνατά και άλλος πιο χαμηλά. Η τεχνική αυτή βασίζεται στο συνδιασμό οπτικοακουστικών σημάτων μέσα σε ένα video για να μπορεί να γίνει ο διαχωρισμός της φωνής. Η μέθοδος στη συνέχεια καταγράφει την κίνηση των χειλιών του στόματος και τη συσχετίζει με την ομιλία του, επιτρέποντας να ξεχωρίζει σε ποιόν ομιλητή ανήκει η φωνή που ακούγεται.

Για να γίνει η πρακτική αυτής της μεθόδου, η Google χρησιμοποίησε 100.000 υψηλής ποιότητας video με ομιλίες και διαλέξεις από το YouTube και κατάφερε να κάνει “εξαγωγή” καθαρής ομιλίας χωρίς να ακούγεται μουσική και ήχοι από το κοινό που παρακολουθούσε, έτσι ώστε να “εκπαιδεύσει” ένα μοντέλο συνελικτικών νευρωνικών δικτύων για να ξεχωρίσει την ομιλία του καθενός σε ξεχωριστά “κανάλια” ήχου. Αυτά στη συνέχεια αναπαριστώνται με τη μορφή κυματομορφής ήχου και μπορεί ο κάθε χρήστης να δυναμώσει την ένταση της φωνής ενός ομιλητή, απομονώνοντας τους άλλους, όπως εξάλλου φαίνεται και στο παράδειγμα που αναπαριστά το video.

google ai ανέπτυξε οπτικοακουστικό μοντέλο διαχωρισμό φωνής σε πλήθος, Google AI: Ανέπτυξε οπτικοακουστικό μοντέλο για να ξεχωρίζουμε τις φωνές μέσα σε πλήθος

Πηγή

Ιάκωβος Μπελώνιας

1787

Λάτρης της τεχνολογίας τα τελευταία 20 χρόνια και παιδί της πληροφορικής με σπουδές στην Αγγλία. Fan της Apple και δεν το κρύβει αλλά καταφέρνει και αντιμετωπίζει την τεχνολογία με αντικειμενικότητα, παρακολουθώντας τα τεχνολογικά δρώμενα σε καθημερινή βάση.

ΣΥΖΗΤΗΣΗ

Παρακολουθήστε τα σχόλια

1 Σχόλιο

παλαιότερο

νεώτερο

Inline Feedbacks

View all comments

tson

6 years πριν

tromaktiko

Απάντηση

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Smartphones featured Google Pixel

Google Pixel 8a: Επίσημο με τιμή από 549 ευρώ

Τετάρτη, 08/05/2024 · Αντώνης Γιαγδζόγλου

Η Google ολοκλήρωσε τη σειρά Pixel 8 παρουσιάζοντας το Pixel 8a, την πιο προσιτή επιλογή, με ενημερωμένη σχεδίαση.

Smartphones featured Google Pixel

Google Pixel 8a: Φήμη το θέλει να έρχεται νωρίτερα από ότι περιμένουμε

Παρασκευή, 03/05/2024 · Αντώνης Γιαγδζόγλου

Νέα φήμη θέλει την τιμή του Google Pixel 8a αυξημένη και την αποκάλυψή του να γίνεται νωρίτερα από το αναμενόμενο.

Software emoji Google

Google: Έρχονται τα «ηχητικά emoji» – Θα περιλαμβάνεται και το πλήκτρο… πορδής

Πέμπτη, 02/05/2024 · Αντώνης Γιαγδζόγλου

Η Google ακούγεται πως κυκλοφορεί “ηχητικά emoji” για τους χρήστες Android, με ορισμένους κατόχους Pixel να παρατηρούν ήδη μια επιλογή.

Smartphones Apple Google iPhone

Google: Πλήρωσε στην Apple 20 δισ. $ το 2022 για να είναι η προεπιλεγμένη μηχανή αναζήτησης στο Safari

Πέμπτη, 02/05/2024 · Αντώνης Γιαγδζόγλου

Tα δικαστικά έγγραφα που σχετίζονται με την αντιμονοπωλιακή αγωγή του Υπουργείου Δικαιοσύνης κατά της Google μόλις αποσφραγίστηκαν.

Google AI: Ανέπτυξε οπτικοακουστικό μοντέλο για να ξεχωρίζουμε τις φωνές μέσα σε πλήθος

Ιάκωβος Μπελώνιας

ΣΥΖΗΤΗΣΗ

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Google Pixel 8a: Επίσημο με τιμή από 549 ευρώ

Google Pixel 8a: Φήμη το θέλει να έρχεται νωρίτερα από ότι περιμένουμε

Google: Έρχονται τα «ηχητικά emoji» – Θα περιλαμβάνεται και το πλήκτρο… πορδής

Google: Πλήρωσε στην Apple 20 δισ. $ το 2022 για να είναι η προεπιλεγμένη μηχανή αναζήτησης στο Safari

ΠΡΟΣΦΑΤΕΣ ΔΗΜΟΣΙΕΥΣΕΙΣ

Sony Xperia 1 VI: Leak δίνει λεπτομέρειες για τις κάμερες, το chipset και την μπαταρία

iOS 18: Αποκαλύφθηκαν οι λειτουργίες τεχνητής νοημοσύνης για Siri, Spotlight και άλλα

TCL 505: Κυκλοφόρησε στην ελληνική αγορά με τιμή 139 ευρώ

Threads: Θα μπορείς να κάνεις cross-post φωτογραφίες από το Instagram

iOS 18: Έρχονται «επισκευές» σε Notes, Mail, φωτογραφίες και εφαρμογές γυμναστικής

Microsoft: Μπορείτε πλέον να χρησιμοποιείτε passkeys για να μπείτε στο λογαριασμό σας