Razumijevanje Govora: Novi Prijenos za Pretraživanje Putem Govora

01.02.2026.

195

Ehsan Variani i Michael Riley, istraživači u Googleu, objavili su novu tehnologiju koja mijenja način na koji pretraživači razumiju govor. Novi motor za pretraživanje putem govora, nazvan Speech-to-Retrieval (S2R), omogućuje direktno dobivanje odgovora iz govorne upita bez prethodne konverzije u tekst, što rezultira bržim i pouzdanijim pretraživanjima za sve korisnike.

7. listopada 2025. Ehsan Variani i Michael Riley, istraživači u Googleu, objavili su novu tehnologiju koja mijenja način na koji pretraživači razumiju govor. Novi motor za pretraživanje putem govora, nazvan Speech-to-Retrieval (S2R), omogućuje direktno dobivanje odgovora iz govorne upita bez prethodne konverzije u tekst, što rezultira bržim i pouzdanijim pretraživanjima za sve korisnike.

Uvod u Pretraživanje Putem Govora

Pretraživanje putem govora već dugo vremena postoji i koristi ga mnogi ljudi, a podložna tehnologija brzo evoluira kako bi omogućila šire primjene. Googleova početna rješenja za pretraživanje putem govora koristila su tehnologiju automatskog prepoznavanja govora (ASR) kako bi pretvorili glasovni unos u tekstualni upit, a zatim pretražili dokumente koji se podudaraju s tim tekstualnim upitom. Međutim, izazov s ovim kaskadnim modelom je što čak i najmanje greške u fazi prepoznavanja govora mogu značajno promijeniti značenje upita, što rezultira pogrešnim rezultatima. Na primjer, zamislite da netko koristi glasovno pretraživanje na webu tražeći slavnu sliku “The Scream” Edvarda Muncha. Pretraživač koristi tipičan pristup kaskadnog modela, prvo pretvarajući glasovni upit u tekst putem ASR-a prije nego što ga prosljeđuje sustavu pretraživanja. Idealno, ASR transkribira upit savršeno. Sustav pretraživanja zatim prima točan tekst – “The Scream slika” – i pruža relevantne rezultate, kao što su povijest slike, njeno značenje i gdje se nalazi. Ali što ako ASR sustav zamijeni “m” u “scream” za “n”? On pogrešno protumači upit kao “screen slika” i vraća irelevantne rezultate o tehnikama za ekrane umjesto detalja o Munčovom djelu.

Razumijevanje Govora: Novi Prijenos za Pretraživanje Putem Govora

Točnost ASR-a ključna je za glasovno pretraživanje. Pogledajte što se događa kada sustav točno transkribira upit u odnosu na situaciju kada ga transkribira pogrešno. Kako spriječiti takve greške u sustavima za web pretraživanje? Što ako sustav može izravno mapirati govor na željeni cilj pretraživanja, preskočivši tekstualnu transkripciju? Upravo tu ulazi Speech-to-Retrieval (S2R). U svom jezgri, S2R je tehnologija koja izravno tumači i dobavlja informacije iz govornog upita bez posrednog, a možda i nepouzdanog, koraka stvaranja savršene tekstualne transkripcije. Predstavlja fundamentalnu promjenu u arhitekturi i filozofiji načina na koji strojevi obrađuju ljudski govor. Dok su današnje tehnologije za glasovno pretraživanje usredotočene na pitanje “Što je rečeno?”, S2R je dizajniran da odgovori na moćnije pitanje: “Koja se informacija traži?”

Ovaj članak istražuje znatnu razliku u kvaliteti trenutnih iskustava s glasovnim pretraživanjem i pokazuje kako S2R model stoji na putu da je popuni. Također, objavljujemo skup podataka Simple Voice Questions (SVQ), kolekciju kratkih audio pitanja snimljenih na 17 različitih jezika i 26 lokaliteta, koje smo koristili za procjenu potencijala S2R-a. Skup podataka SVQ dio je novog benchmarka za masivne zvukove.

Procjena Potencijala S2R

Kada tradicionalni ASR sustav pretvori audio u jedan tekstualni niz, može izgubiti kontekstualne klučeve koji bi mogli pomoći u razlučivanju značenja (tj. gubitak informacija). Ako sustav pogrešno protumači audio na početku, ta greška se prenosi na sustav pretraživanja, koji obično nema mogućnost ispraviti je (tj. propagacija grešaka). Kao rezultat, konačni rezultat pretraživanja možda ne odražava namjeru korisnika.

Da bismo istražili ovu vezu, proveli smo eksperiment dizajniran da simulira idealno ASR ponašanje. Počeli smo sakupljanjem reprezentativnog skupa testnih upita koji odražavaju tipičan promet glasovnog pretraživanja. Ključno, ti upiti zatim su ručno transkribirali ljudski anotatori, stvarajući “idealni ASR” scenarij gdje je transkripcija apsolutna istina. Zatim smo utemeljili dva različita sustava pretraživanja za usporedbu (pogledajte donji grafikon):

– Cascade ASR predstavlja tipičan realni svijet postavljanja, gdje se govor pretvara u tekst putem automatskog prepoznavanja govora (ASR) sustava, a zatim se taj tekst prosljeđuje sustavu za pretraživanje.
– Cascade groundtruth simulira “idealni” kaskadni model slanjem savršene istine teksta direktno istom sustavu za pretraživanje.

Dokumenti koji su dobavljeni iz oba sustava (cascade ASR i cascade groundtruth) zatim su prikazani ljudskim evaluatorima, ili “ocjenjivačima”, zajedno s originalnim istinskim upitom. Evaluatorima je zadatak bio usporediti rezultate pretraživanja iz oba sustava, pružajući subjektivnu procjenu njihove kvalitete. Koristili smo stopu grešaka riječi (WER) za mjerenje kvalitete ASR-a, a za mjerenje performansi pretraživanja koristili smo srednju recipročnu rang (MRR) – statističku metodu za procjenu bilo kojeg procesa koji proizvodi popis mogućih odgovora na uzorak upita, poredanih po vjerojatnosti točnosti i izračunatih kao prosjek recipročnih vrijednosti ranga prvog točnog odgovora kroz sve upite.

Zaključak

Speech-to-Retrieval (S2R) predstavlja revolucionarnu promjenu u načinu na koji sustavi razumiju i odgovaraju na glasovne upite. Bilo da se radi o poboljšanju točnosti ili bržini, S2R stoji na putu da transformira iskustvo glasovnog pretraživanja, pružajući korisnicima brže i pouzdanije rezultate. U budućnosti, očekujemo da će S2R postati standardna tehnologija u mnogim sustavima za glasovno pretraživanje, poboljšavajući ukupno iskustvo korisnika.

Česta Pitanja

Što je Speech-to-Retrieval (S2R)?

Speech-to-Retrieval (S2R) je nova tehnologija koja direktno tumači i dobavlja informacije iz govornog upita bez prethodne konverzije u tekst, što rezultira bržim i pouzdanijim pretraživanjima.

Kako S2R radi?

S2R preskače korak transkripcije u tekst i izravno mapira govor na željeni cilj pretraživanja, smanjujući mogućnost grešaka u prepoznavanju govora.

Koje su prednosti S2R-a?

Prednosti S2R-a uključuju poboljšanu točnost, bržinu i pouzdanost pretraživanja putem govora, te smanjenje grešaka u prepoznavanju govora.

Koje su nedostaci S2R-a?

Nedostaci S2R-a mogu uključivati složenost implementacije i potencijalne troškove razvoja, ali očekuje se da će se ove prepreke rješiti s vremenom i napredkom tehnologije.