U današnje vrijeme, kada se komunikacija odvija na različitim platformama, važnost pristupačnosti grupnih razgovora postaje sve očitija. U ovom članku istražujemo inovativni pristup koji koristi višemikrofonsku lokalizaciju kako bi unaprijedio mobilno titlovanje uz dijarizaciju govornika i smjernice o smjeru zvuka.
Uloga mobilnog titlovanja u pristupačnosti
Mobilne aplikacije za prepoznavanje govora, poput Live Transcribe, postale su neprocjenjive za osobe s oštećenjem sluha i govora, kao i za prevođenje jezika, bilježenje i transkripciju sastanaka. Međutim, kada više osoba sudjeluje u razgovoru, postojeće aplikacije za automatsko prepoznavanje govora (ASR) obično spajaju sve transkribirane govore u jedan tekst, što otežava praćenje tko što govori. Ova ograničenja mogu uzrokovati kognitivno preopterećenje kod korisnika koji moraju istovremeno obraditi transkript, identificirati govornike i sudjelovati u razgovoru.
Trenutno postoje rješenja, no ona su često nepraktična za korištenje u mobilnim scenarijima. Na primjer, odvajanje zvuka prema vizualnim podacima zahtijeva da govornici budu vidljivi kameri, dok pristupi koji koriste otisak glasa zahtijevaju model koji može odrediti i registrirati jedinstveni glasovni otisak svakog govornika.
Inovacija: SpeechCompass
U radu pod nazivom „SpeechCompass: Unapređenje mobilnog titlovanja uz dijarizaciju i smjernice o smjeru putem višemikrofonske lokalizacije“, koji je osvojio nagradu za najbolji rad na konferenciji CHI 2025, istražujemo pristup koji poboljšava mobilno titlovanje uz dijarizaciju govornika (odvajanje govornika u ASR transkriptu) i real-time lokalizaciju dolaznog zvuka. SpeechCompass stvara korisnički prijateljske transkripte za grupne razgovore pružajući vizualno odvojene transkripte za svakog govornika uz pomoć boja i smjernica (strelica) koje pomažu korisnicima da odrede smjer iz kojeg dolazi govor.
Ovaj višemikrofonski pristup smanjuje troškove obrade, smanjuje latenciju i poboljšava očuvanje privatnosti.
Kako funkcionira SpeechCompass?
SpeechCompass implementiramo u dva oblika: kao prototip kućišta za telefon s četiri mikrofona povezana na niskopotrošački mikrocontroller i kao softver za postojeće telefone s dva mikrofona. Dizajn kućišta za telefon omogućuje optimalno postavljanje mikrofona za 360-stupanjsku lokalizaciju zvuka. Softverska implementacija nudi samo 180-stupanjsku lokalizaciju na uređajima s dva ili više mikrofona, poput Pixel telefona. U oba slučaja, telefon se koristi za prepoznavanje govora, a transkripti se vizualiziraju putem mobilne aplikacije.
Tehnološki izazovi i rješenja
Jedan od izazova s kojim se suočavamo je da zvuk, zbog niskih frekvencija, odbija se u zatvorenim prostorima, uzrokujući eho i otežavajući preciznu lokalizaciju zvuka, posebno govora. Kako bismo riješili ovaj problem, primjenjujemo algoritam lokalizacije temeljen na razlici u vremenu dolaska (TDOA). Audio signali dolaze do svakog mikrofona u malo različitim vremenima, pa algoritam procjenjuje TDOA između parova mikrofona koristeći kros-korelaciju kako bi predvidio kut dolaska zvuka.
Specifično, koristimo Generalized Cross Correlation with Phase Transform (GCC-PHAT) kako bismo poboljšali otpornost na šum i povećali brzinu obrade. Zatim primjenjujemo statističke procjene, poput procjene gustoće jezgre, kako bismo poboljšali preciznost lokalizacije. Korištenje dva omnidirekcijska mikrofona uvijek će imati „prednju–stražnju“ konfuziju, što omogućuje samo 180-stupanjsku lokalizaciju. Ovaj problem rješavamo korištenjem tri ili više mikrofona, čime postižemo 360-stupanjsku lokalizaciju.
Prednosti SpeechCompass sustava
SpeechCompass nudi nekoliko prednosti u usporedbi s pristupima temeljenim na strojnome učenju za dijarizaciju govora iz jednog izvora:
- Niži troškovi obrade i memorije: Budući da ne koristi model niti težine, algoritam može raditi na malim mikrocontrollerima s ograničenom memorijom i procesorskom snagom.
- Smanjena latencija: SpeechCompass ne oslanja se na prepoznavanje karakteristika glasa. Umjesto toga, izvlači smjernice iz osnovnih zvučnih svojstava, omogućujući rad u stvarnom vremenu s minimalnim kašnjenjem.
- Veće očuvanje privatnosti: SpeechCompass pretpostavlja da su različiti govornici fizički na odvojenim mjestima i ne zahtijeva video ili bilo kakve jedinstvene osobne identifikacijske informacije, poput otisaka govora.
- Jezik-agnostička operacija: SpeechCompass analizira razlike između audio valova bez prethodnih pretpostavki o sadržaju, što ga čini korisnim za zvukove izvan govora.
- Instantna rekonfiguracija: SpeechCompass se može odmah rekonfigurirati pomicanjem telefona.
Korisničko sučelje za vizualizaciju smjera govornika
Razvili smo mobilnu aplikaciju koja koristi Androidove mogućnosti prepoznavanja govora kako bi obogatila transkripte govora podacima o lokalizaciji koje šalju mikrofoni prototipa kućišta telefona putem USB-a. Aplikacija nudi više stilova vizualizacije za označavanje smjera govornika:
- Obojeni tekst: Govornici su odvojeni korištenjem različitih boja teksta.
- Smjernice: Strelice, kotačići u krugu i boje istaknute oko okvira teksta pokazuju lokaciju svakog govornika.
- Minimap: Mali radar s prikazom trenutne pozicije govornika.
- Indikatori ruba: Vizualne oznake oko rubova ekrana ističu smjer govornika.
- Potiskivanje neželjenog govora: Korisnik može kliknuti na strane ekrana kako bi potisnuo govor koji dolazi iz tih smjerova.
Zaključak
Inovacije poput SpeechCompass predstavljaju značajan korak naprijed u poboljšanju pristupačnosti grupnih razgovora. Korištenjem višemikrofonske lokalizacije i naprednih algoritama, omogućuju korisnicima da lakše prate razgovore i sudjeluju u njima, bez obzira na broj sudionika. Ova tehnologija ne samo da poboljšava iskustvo korisnika, već također čuva privatnost i smanjuje troškove obrade, čineći je idealnim rješenjem za mobilne uređaje.
Česta pitanja (FAQ)
Što je SpeechCompass?
SpeechCompass je inovativni sustav koji koristi višemikrofonsku lokalizaciju za poboljšanje mobilnog titlovanja i dijarizaciju govornika u grupnim razgovorima.
Kako SpeechCompass poboljšava pristupačnost?
SpeechCompass omogućuje korisnicima da lakše prate razgovore pružajući vizualno odvojene transkripte i smjernice o smjeru govora.
Koje su prednosti korištenja višemikrofonske lokalizacije?
Višemikrofonska lokalizacija smanjuje troškove obrade, smanjuje latenciju, poboljšava očuvanje privatnosti i omogućuje rad u stvarnom vremenu.
Može li SpeechCompass raditi na svim mobilnim uređajima?
SpeechCompass se može implementirati kao prototip kućišta za telefon ili kao softver za postojeće telefone s dva ili više mikrofona.
Kako se korisnici mogu uključiti u korištenje SpeechCompass-a?
Korisnici mogu preuzeti aplikaciju koja koristi SpeechCompass i koristiti je za poboljšanje svojih iskustava u grupnim razgovorima.











![Kako se male firme mogu pripremiti za zahtjeve NIS2 [Vodič za 2025.] 12 a friendly robot always at your disposal 2025 01 09 12 18 47 utc](https://umjetnai.com/wp-content/uploads/2025/02/a-friendly-robot-always-at-your-disposal-2025-01-09-12-18-47-utc-360x180.jpg)
![ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno] 13 chatgpt5](https://umjetnai.com/wp-content/uploads/2025/08/chatgpt5-360x180.webp)
![Što znači NIS2 direktiva i zašto je važna za IT sigurnost u Hrvatskoj [EU podrška za cybersecurity] 14 businessman with smart artificial intelligence ai 2024 10 11 03 45 41 utc](https://umjetnai.com/wp-content/uploads/2025/04/businessman-with-smart-artificial-intelligence-ai-2024-10-11-03-45-41-utc-360x180.jpg)

