Poboljšanje pristupačnosti grupnih razgovora uz lokalizaciju zvuka

30.11.2025.

194

U današnje vrijeme, kada se komunikacija odvija na različitim platformama, važnost pristupačnosti grupnih razgovora postaje sve očitija. U ovom članku istražujemo inovativni pristup koji koristi višemikrofonsku lokalizaciju kako bi unaprijedio mobilno titlovanje uz dijarizaciju govornika i smjernice o smjeru zvuka.

Uloga mobilnog titlovanja u pristupačnosti

Mobilne aplikacije za prepoznavanje govora, poput Live Transcribe, postale su neprocjenjive za osobe s oštećenjem sluha i govora, kao i za prevođenje jezika, bilježenje i transkripciju sastanaka. Međutim, kada više osoba sudjeluje u razgovoru, postojeće aplikacije za automatsko prepoznavanje govora (ASR) obično spajaju sve transkribirane govore u jedan tekst, što otežava praćenje tko što govori. Ova ograničenja mogu uzrokovati kognitivno preopterećenje kod korisnika koji moraju istovremeno obraditi transkript, identificirati govornike i sudjelovati u razgovoru.

Trenutno postoje rješenja, no ona su često nepraktična za korištenje u mobilnim scenarijima. Na primjer, odvajanje zvuka prema vizualnim podacima zahtijeva da govornici budu vidljivi kameri, dok pristupi koji koriste otisak glasa zahtijevaju model koji može odrediti i registrirati jedinstveni glasovni otisak svakog govornika.

Inovacija: SpeechCompass

U radu pod nazivom „SpeechCompass: Unapređenje mobilnog titlovanja uz dijarizaciju i smjernice o smjeru putem višemikrofonske lokalizacije“, koji je osvojio nagradu za najbolji rad na konferenciji CHI 2025, istražujemo pristup koji poboljšava mobilno titlovanje uz dijarizaciju govornika (odvajanje govornika u ASR transkriptu) i real-time lokalizaciju dolaznog zvuka. SpeechCompass stvara korisnički prijateljske transkripte za grupne razgovore pružajući vizualno odvojene transkripte za svakog govornika uz pomoć boja i smjernica (strelica) koje pomažu korisnicima da odrede smjer iz kojeg dolazi govor.

Ovaj višemikrofonski pristup smanjuje troškove obrade, smanjuje latenciju i poboljšava očuvanje privatnosti.

Kako funkcionira SpeechCompass?

SpeechCompass implementiramo u dva oblika: kao prototip kućišta za telefon s četiri mikrofona povezana na niskopotrošački mikrocontroller i kao softver za postojeće telefone s dva mikrofona. Dizajn kućišta za telefon omogućuje optimalno postavljanje mikrofona za 360-stupanjsku lokalizaciju zvuka. Softverska implementacija nudi samo 180-stupanjsku lokalizaciju na uređajima s dva ili više mikrofona, poput Pixel telefona. U oba slučaja, telefon se koristi za prepoznavanje govora, a transkripti se vizualiziraju putem mobilne aplikacije.

Tehnološki izazovi i rješenja

Jedan od izazova s kojim se suočavamo je da zvuk, zbog niskih frekvencija, odbija se u zatvorenim prostorima, uzrokujući eho i otežavajući preciznu lokalizaciju zvuka, posebno govora. Kako bismo riješili ovaj problem, primjenjujemo algoritam lokalizacije temeljen na razlici u vremenu dolaska (TDOA). Audio signali dolaze do svakog mikrofona u malo različitim vremenima, pa algoritam procjenjuje TDOA između parova mikrofona koristeći kros-korelaciju kako bi predvidio kut dolaska zvuka.

Specifično, koristimo Generalized Cross Correlation with Phase Transform (GCC-PHAT) kako bismo poboljšali otpornost na šum i povećali brzinu obrade. Zatim primjenjujemo statističke procjene, poput procjene gustoće jezgre, kako bismo poboljšali preciznost lokalizacije. Korištenje dva omnidirekcijska mikrofona uvijek će imati „prednju–stražnju“ konfuziju, što omogućuje samo 180-stupanjsku lokalizaciju. Ovaj problem rješavamo korištenjem tri ili više mikrofona, čime postižemo 360-stupanjsku lokalizaciju.

Prednosti SpeechCompass sustava

SpeechCompass nudi nekoliko prednosti u usporedbi s pristupima temeljenim na strojnome učenju za dijarizaciju govora iz jednog izvora:

Niži troškovi obrade i memorije: Budući da ne koristi model niti težine, algoritam može raditi na malim mikrocontrollerima s ograničenom memorijom i procesorskom snagom.
Smanjena latencija: SpeechCompass ne oslanja se na prepoznavanje karakteristika glasa. Umjesto toga, izvlači smjernice iz osnovnih zvučnih svojstava, omogućujući rad u stvarnom vremenu s minimalnim kašnjenjem.
Veće očuvanje privatnosti: SpeechCompass pretpostavlja da su različiti govornici fizički na odvojenim mjestima i ne zahtijeva video ili bilo kakve jedinstvene osobne identifikacijske informacije, poput otisaka govora.
Jezik-agnostička operacija: SpeechCompass analizira razlike između audio valova bez prethodnih pretpostavki o sadržaju, što ga čini korisnim za zvukove izvan govora.
Instantna rekonfiguracija: SpeechCompass se može odmah rekonfigurirati pomicanjem telefona.

Korisničko sučelje za vizualizaciju smjera govornika

Razvili smo mobilnu aplikaciju koja koristi Androidove mogućnosti prepoznavanja govora kako bi obogatila transkripte govora podacima o lokalizaciji koje šalju mikrofoni prototipa kućišta telefona putem USB-a. Aplikacija nudi više stilova vizualizacije za označavanje smjera govornika:

Obojeni tekst: Govornici su odvojeni korištenjem različitih boja teksta.
Smjernice: Strelice, kotačići u krugu i boje istaknute oko okvira teksta pokazuju lokaciju svakog govornika.
Minimap: Mali radar s prikazom trenutne pozicije govornika.
Indikatori ruba: Vizualne oznake oko rubova ekrana ističu smjer govornika.
Potiskivanje neželjenog govora: Korisnik može kliknuti na strane ekrana kako bi potisnuo govor koji dolazi iz tih smjerova.

Zaključak

Inovacije poput SpeechCompass predstavljaju značajan korak naprijed u poboljšanju pristupačnosti grupnih razgovora. Korištenjem višemikrofonske lokalizacije i naprednih algoritama, omogućuju korisnicima da lakše prate razgovore i sudjeluju u njima, bez obzira na broj sudionika. Ova tehnologija ne samo da poboljšava iskustvo korisnika, već također čuva privatnost i smanjuje troškove obrade, čineći je idealnim rješenjem za mobilne uređaje.

Česta pitanja (FAQ)

Što je SpeechCompass?

SpeechCompass je inovativni sustav koji koristi višemikrofonsku lokalizaciju za poboljšanje mobilnog titlovanja i dijarizaciju govornika u grupnim razgovorima.