Povećajte pristupačnost grupnih razgovora s lokalizacijom zvuka

01.02.2026.

200

, Samuel Yang, istraživač u Googleu, i Sagar Savla, menadžer proizvoda u Google DeepMindu, istražuju pristup koji koristi lokalizaciju s više mikrofonima kako bi poboljšao mobilno prevođenje govora s dijarezom govornika i smjernicama za smjer.

2. srpnja 2025., Samuel Yang, istraživač u Googleu, i Sagar Savla, menadžer proizvoda u Google DeepMindu, istražuju pristup koji koristi lokalizaciju s više mikrofonima kako bi poboljšao mobilno prevođenje govora s dijarezom govornika i smjernicama za smjer.

Brzi linkovi:
– Članak
– Pogledajte video

Uvod u lokalizaciju zvuka za mobilno prevođenje govora

Mobilni uređaji s mogućnostima pretvaranja govora u tekst, kao što je Live Transcribe, postali su neprocjenjivi za osobe s oštećenim sluhom, prevoditelje, bilježnike i sudionike sastanaka. Međutim, kada se u razgovoru sudjeluje više ljudi, postojeće mobilne aplikacije za automatsko prevođenje govora (ASR) obično spajaju cijeli prevođeni govor zajedno, čineći teško razumjeti tko šta kaže. Ova ograničenja stvaraju kognitivni teret korisnicima koji moraju istovremeno procesirati transkript, identificirati govornike i sudjelovati u razgovoru.

Rješenja su već implementirana, ali trenutno su nepraktična za mobilne scenarije. Na primjer, razdvajanje govora s audio-vizualnim signalima zahtijeva da govornici budu vidljivi kameri, a pristupi s ugrađenim govorom zahtijevaju model koji određuje i registrira jedinstveni glasovni otisak svakog govornika. U članku “SpeechCompass: Povećanje mobilnog prevođenja govora s dijarezom i smjernicama za smjer putem lokalizacije s više mikrofonima”, dobitnik nagrade za najbolji članak na CHI 2025, istražujemo pristup koji poboljšava mobilno prevođenje govora s dijarezom govornika (razdvajanjem govornika u ASR transkriptu) i real-vremenskom lokalizacijom dolaznog zvuka.

SpeechCompass stvara korisničko prijateljske transkripte za grupne razgovore pružajući vizualno razdvajanje s bojnim oznakama za svakog govornika i smjernice (strelice) koje pomažu korisnicima da odrede smjer dolaska govora. Ovaj pristup s više mikrofonima snižava troškove računalstva, smanjuje kašnjenje i poboljšava zaštitu privatnosti.

!Poređenje postojećih mobilnih transkripcija i SpeechCompass

Efikasna real-vremenska lokalizacija zvuka

Implementirali smo SpeechCompass u dvije različite forme: kao prototip kućišta za telefon s četiri mikrofona povezana na niskonaponski mikrokontroler i kao softver za postojeće telefone s dva mikrofona. Dizajn kućišta za telefon pruža optimalno postavljanje mikrofonima za omogućavanje lokalizacije zvuka od 360 stupnjeva. Implementacija softvera nudi lokalizaciju od 180 stupnjeva na uređajima s dva ili više mikrofonima, kao što je Pixel telefon. U obojim implementacijama telefon se koristi za prepoznavanje govora, a transkripte se vizualiziraju pomoću mobilne aplikacije.

!Implementacija prototipa kućišta za telefon i njegove interne elektronike

Algoritam lokalizacije zvuka

Zvuk ima nisku frekvenciju, pa se u unutrašnjim prostorima okruženja odbija i stvaraju odjeki, čineći audio, posebno govor, teško lokalizirati s preciznošću. Da bismo riješili ovaj izazov, primijenili smo algoritam lokalizacije temeljen na razlici vremena dolaska (TDOA). Audio signali dolaze na svakom mikrofonu malo različito vrijeme, pa algoritam procjenjuje TDOA između para mikrofonima s krstovnom korelacijom kako bi predvidio kut dolaska zvuka. Konkrretno, koristimo Generaliziranu krstovnu korelaciju s transformacijom faze (GCC-PHAT) kako bismo poboljšali otpornost na šum i povećali brzinu izračuna. Zatim primjenjujemo statističke procjene, kao što je procjena gustoće jezgra, kako bismo poboljšali preciznost lokalizatora.

Korištenje dva omnidirekcionalna mikrofona uvijek će imati “naprijed-nazad” zabunu (tj., kada signali naprijed ili iza niza mikrofonima izgledaju identični mikrofonu), pa omogućuju samo lokalizaciju od 180 stupnjeva. Ovaj problem riješen je korištenjem triju ili više mikrofonima, omogućujući lokalizaciju od 360 stupnjeva.

!Shema sustava SpeechCompass, uključujući hardver kućišta za telefon i mobilnu aplikaciju

Prednosti pristupa s više mikrofonima u SpeechCompass

Pristup s više mikrofonima u SpeechCompass nudi nekoliko prednosti u odnosu na ML pristupe dijarezi pojedinih izvora:

– Niži troškovi računalstva i memorije: Jer nema modela ni težina, algoritam se može pokrenuti na malim mikrokontrolerima s ograničenom memorijom i računalstvom.
– Smanjeno kašnjenje: SpeechCompass ne ovisi o hvatanju razlikujućih glasovnih karakteristika. Umjesto toga, izvlači smjernice iz osnovnih svojstava zvuka, omogućavajući mu rad u realnom vremenu s minimalnim kašnjenjem.
– Veća zaštita privatnosti: SpeechCompass pretpostavlja da su različiti govornici fizički na različitim mjestima i ne zahtijeva video ili bilo kakve jedinstvene osobne podatke, kao što su ugrađeni govornici (jedinstveni identitet pojedinačnog glasa).
– Jezik-agnostična operacija: SpeechCompass gleda razlike između audio signala bez obzira na jezik.

Zaključak

SpeechCompass predstavlja revolucionarni pristup poboljšanju mobilnog prevođenja govora, pružajući korisnicima korisničko prijateljske transkripte za grupne razgovore. Njegov multi-mikrofonski pristup nudi niže troškove računalstva, smanjeno kašnjenje i veću zaštitu privatnosti, čineći ga idealnim rješenjem za mobilne scenarije.

Česta pitanja

1. Može li SpeechCompass raditi s uređajima bez više mikrofonima?

SpeechCompass je optimiziran za uređaje s više mikrofonima kako bi omogućio 360-stupanjsku lokalizaciju zvuka. Na uređajima s dva mikrofona, lokalizacija je ograničena na 180 stupnjeva zbog “naprijed-nazad” zabune.

2. Koliko je efikasan SpeechCompass u šumovitim okruženjima?

SpeechCompass koristi algoritam GCC-PHAT koji je dizajniran za poboljšanje otpornosti na šum, čineći ga efikasnim i u šumovitim okruženjima. Međutim, kao i svaki drugi sistem, njegovu učinkovitost može utjecati razina šuma i specifične karakteristike okruženja.

3. Može li SpeechCompass raditi s više od dva govornika?

Da, SpeechCompass je dizajniran za rad s više od dva govornika. Njegov multi-mikrofonski pristup omogućava preciznu lokalizaciju zvuka i dijarezu govornika, čak i kada se u razgovoru sudjeluje više ljudi.

4. Koliko je skup SpeechCompass?

Cijena SpeechCompassa varira ovisno o implementaciji. Prototip kućišta za telefon s četiri mikrofona i niskonaponskim mikrokontrolerom može biti skuplji, dok je softver za postojeće telefone s dva mikrofona pristupačniji. Međutim, s obzirom na njegove prednosti u poboljšanju pristupačnosti i efikasnosti, mnogi korisnici smatraju da je investicija vrijedna.

5. Može li SpeechCompass raditi u realnom vremenu?

Da, SpeechCompass je dizajniran za rad u realnom vremenu. Njegov algoritam izvlači smjernice iz osnovnih svojstava zvuka bez ovisnosti o hvatanju razlikujućih glasovnih karakteristika, omogućavajući mu minimalno kašnjenje.