Google je nedavno predstavio novu aplikaciju za diktiranje na iOS-u koja radi bez internetske veze, a temelji se na otvorenom modelu Gemma. Rješenje omogućuje izuzetno točno pretvaranje govora u tekst, a sve se odvija isključivo na samom uređaju. Time se izbjegavaju kašnjenja koja nastaju slanjem podataka na udaljene poslužitelje, a privatnost korisnika ostaje potpuno zaštićena.
Brzina i točnost bez kompromisa
Aplikacija koristi lokalnu obradu zvuka i prirodno razumijevanje jezika, što znači da se ni jedan dio razgovora ne šalje van iPhonea. Rezultat je gotovo trenutačna transkripcija, čak i u uvjetima slabog ili potpuno izostalog signala. Korisnici mogu govoriti prirodno, a sustav sam dodaje točke, zareze, odlomke i velika slova, što znatno smanjuje naknadno uređivanje.
Zahvaljujući takvoj arhitekturi, aplikacija je posebno zanimljiva novinarima, liječnicima, odvjetnicima i svima koji često diktiraju osjetljive podatke. Podaci ostaju na uređaju, a potrošnja internetskog prometa je gotovo pa jednaka nuli.
Kako funkcionira Gemma 2B na mobilnom uređaju?
U srcu aplikacije nalazi se model Gemma 2B s dvije milijarde parametara, koji je Google prilagodio za rad na iPhoneu. Pomoću 4-bitne kompresije veličina modela smanjena je na svega nekoliko megabajta, što omogućuje brzo učitavanje i rad bez zauzimanja previše radne memorije. Unatoć smanjenju, točnost prepoznavanja govora ostaje na razini vodećih oblak-službi, a često je i bolja.
Izvršavanje koristi Neural Engine čipove koji se već nalaze u novijim iPhone modelima, pa se energija baterije troši učinkovito, a procesiranje traje stotinke milisekundi. To znači da korisnik može diktirati dulje tekstove bez vidljivog opterećenja uređaja.
Prednosti koje ističu stručnjaci
- Potpuna privatnost – zvuk se nigdje ne pohranjuje
- Rad bez interneta – pogodno za putovanja i sigurne prostore
- Automatsko oblikovanje – točke, zarezi i odlomci stiže sami
- Brzina – gotovo trenutačna pojava teksta na ekranu
- Mala potrošnja energije – zahvaljujući optimizaciji za Neural Engine
Prvi testovi pokazuju da aplikacija uspješno prepoznaje hrvatske nazive, imena i pojmove, iako je primarno razvijena za engleski jezik. Google najavljuje da će u narednim ažuriranjima podržati i druge jezike, uključujući hrvatski, što bi značajno proširilo krug korisnika u regiji.
Kome se isplati preuzeti aplikaciju?
Rješenje je idealno za sve koji često bilježe sastanke, pišu duge e-mailove ili žele voditi dnevnik bez tipkanja. Posebno je korisno u zatvorenim institucijama gdje se zbog sigurnosti ne smiju koristiti usluge oblaka, poput bolničkih klinika, sudova ili istraživačkih laboratorija.
Instalacija je jednostavna: dovoljno je pronaći aplikaciju u App Storeu, preuzeti je i aktivirati tipkovnicu za diktiranje u postavkama sustava. Nakon toga, mikrofon je dostupan u svim aplikacijama koje podržavaju unos teksta.
Što dalje?
Google planira uvesti sinkronizaciju s Dokumentima, automatsko dijeljenje bilježaka i suradnički rad na istom