U današnjem digitalnom dobu, alati za prepoznavanje govora na mobilnim uređajima postali su neizostavni. Koriste se za poboljšanje pristupačnosti, prevođenje jezika u stvarnom vremenu, brzo zapisivanje bilješki te transkripciju sastanaka. Međutim, kada više osoba istovremeno govori, većina postojećih rješenja suočava se s ozbiljnim problemom: spajanjem svih izgovora u jedan kontinuirani tok. To stvara značajno opterećenje za korisnike koji moraju istovremeno pratiti tko govori i što se govori, što često dovodi do gubitka ključnih informacija.
Glavni izazovi u trenutnom prepisivanju govora
Postojeća rješenja za identifikaciju govornika, poznata kao dijareizacija govora, suočavaju se s nekoliko značajnih prepreka. Metode poput audio-vizualne separacije ili ugradnje glasovnih otisaka (speaker embedding) često su ili izrazito zahtjevne za računalnu snagu ili zahtijevaju složenu početnu konfiguraciju. Audio-vizualna separacija, na primjer, oslanja se na vizualnu vidljivost govornika, što nije uvijek moguće, pogotovo u situacijama kada se razgovor odvija u zatvorenim prostorima ili na daljinu. S druge strane, ugradnja glasovnih otisaka zahtijeva treniranje naprednih modela na velikim skupovima podataka kako bi se prepoznali jedinstveni glasovni potpisi, što je dugotrajan i skup proces.
Ovi pristupi često nisu praktični za mobilne scenarije gdje su ključni faktori jednostavnost upotrebe, brzina obrade i, iznad svega, zaštita privatnosti korisnika. Potreba za jednostavnim i učinkovitim rješenjem koje ne narušava privatnost postala je sve izraženija.
Predstavljamo SpeechCompass: Inovativni sustav za mobilno prepisivanje
U nastojanju da riješe ove probleme, Samuel Yang i Sagar Savla iz uglednih istraživačkih timova Google Research i Google DeepMind predstavili su SpeechCompass. Ovaj revolucionarni sustav značajno unapređuje mobilno prepisivanje govora u stvarnom vremenu uvođenjem precizne dijareizacije govornika i lokalizacije zvuka. Istraživanje je prepoznato i nagrađeno prestižnom nagradom za najbolji rad na konferenciji CHI 2025, što potvrđuje njegovu važnost i inovativnost.
SpeechCompass se temelji na korištenju više mikrofona za precizno određivanje smjera odakle dolazi zvuk. Sustav korisnicima pruža transkripte obojane različitim bojama te vizualne pokazatelje u obliku strelica. Na taj način korisnici mogu lako identificirati tko govori i odakle dolazi zvuk, što uvelike olakšava praćenje konverzacije. Ovaj pristup ne samo da smanjuje računalne troškove i minimizira kašnjenje u obradi, već također u potpunosti čuva privatnost korisnika jer ne zahtijeva snimanje videozapisa niti pohranjivanje osjetljivih glasovnih otisaka.
Tehnička implementacija i prednosti
SpeechCompass je razvijen u dvije glavne varijante kako bi se prilagodio različitim mobilnim uređajima i potrebama. Prva je prototip kućišta za pametni telefon opremljen s četiri mikrofona i niskopotrošnim mikrokontrolerom, koji omogućuje potpunu 360-stupanjsku lokalizaciju zvuka. Druga varijanta je softversko rješenje namijenjeno pametnim telefonima koji već posjeduju dva mikrofona, a pruža 180-stupanjsku lokalizaciju zvuka. Obje verzije osiguravaju visoku preciznost i učinkovitost.
Srž sustava čini napredni algoritam za određivanje smjera zvuka. Koristi se metoda razlike u vremenu dolaska (Time Difference of Arrival – TDOA) u kombinaciji s tehnikom Generalizirane međusobne korelacije s faznom transformacijom (Generalized Cross Correlation with Phase Transform – GCC-PHAT). Ova kombinacija omogućuje precizno izračunavanje smjera izvora zvuka. Dodatno, tehnika procjene gustoće jezgre (Kernel Density Estimation) dodatno usavršava preciznost lokalizacije. Ključna prednost ovog pristupa s više mikrofona jest izbjegavanje potrebe za složenim modelima za prepoznavanje govornika ili snimanjem videozapisa, čime se osigurava brzina, učinkovitost i potpuna zaštita privatnosti.
Budućnost mobilnog prepisivanja
SpeechCompass predstavlja značajan korak naprij