Mali modeli, velika rezultata: Postizanje izvrstanog ekstraktovanja…

01.02.2026.

197

Danielle Cohen i Yoni Halpern, inženjeri softvera u Googleu, predstavljaju revolucionarni pristup razumijevanju namjera korisnika iz interakcija s korisničkim sučeljem (UI) koristeći male modele, koji daju bolje rezultate od znatno većih modela.

Kao što se AI tehnologije razvijaju, pravi korisni agenti postat će sposobni bolje predvidjeti potrebe korisnika. Za iskustva na mobilnim uređajima da budu stvarno korisna, modeli moraju razumjeti što korisnik radi (ili pokušava raditi) kada s njima interagira. Kada se razumiju trenutačni i prethodni zadaci, model ima više konteksta za predviđanje potencijalnih sljedećih akcija. Na primjer, ako korisnik ranije traži glazbene festivale po Europi, a sada traži let za London, agent može ponuditi pronalazak festivala u Londonu na te datume.

Veliki multimodalni LLM-ovi su već vrlo dobri u razumijevanju namjera korisnika iz UI putanje. Međutim, korištenje LLM-ova za ovaj zadatak obično zahtijeva slanje podataka na poslužitelj, što može biti sporo, skupo i nosi potencijalni rizik izlaganja osjetljivih podataka. Naš nedavni članak “Mali modeli, velika rezultata: Postizanje izvrstanog ekstraktovanja namjera kroz dekompoziciju”, predstavljen na EMNLP 2025, bavi se pitanjem kako koristiti male multimodalne LLM-ove (MLLM-ove) za razumijevanje sekvenci korisničkih interakcija na webu i mobilnim uređajima isključivo na uređaju. Razdvajanjem razumijevanja namjera korisnika u dva koraka, prvo sažimajući svaki ekran zasebno, a zatim ekstraktirajući namjeru iz sekvence generiranih sažetaka, čini se zadatak lakšim za male modele. Također smo formalizirali mjere za procjenu performansi modela i pokazali da naš pristup daje rezultate usporedive s mnogo većim modelima, ilustrirajući njegov potencijal za primjenu na uređaju.

Ovaj rad temelji se na prethodnom radu našeg tima na razumijevanju namjera korisnika.

Detalji

Uvodimo dekomponirani radni tok za razumijevanje namjera korisnika iz korisničkih interakcija. Tijekom inferencije model izvršava dva glavna koraka. U prvom koraku svaka pojedinačna interakcija na jednom ekranu i UI elementu se sažima nezavisno. Zatim se te sažetke koriste kao serija događaja za predviđanje opće namjere cijele UI putanje. Sažetci pojedinačnih ekrana

Na prvom koraku, svaka pojedinačna interakcija se sažima malim multimodalnim LLM-om. Daje se klizajući prozor od tri ekrana (prethodni, trenutačni, sljedeći) i postavljaju se sljedeća pitanja: Koji je relevantan kontekst ekrana? Daj kratki popis važnih detalja na trenutnom ekranu. Što je korisnik upravo učinio? Daj popis akcija koje je korisnik učinio u ovoj interakciji. Speculiraj. Što korisnik pokušava ostvariti ovom interakcijom? Prvi korak dekomponiranog radnog toka. Za svaki par snimke, akcija gledamo okolne ekrane i postavljamo pitanja o kontekstu ekrana, korisničkoj akciji i spekulaciji o tome što korisnik pokušava učiniti. Na dnu prikazujemo potencijalni LLM-generirani sažetak koji odgovara na tri pitanja. Ovaj sažetak poslužit će kao ulaz za drugi korak dekomponiranog radnog toka. Ekstraktovanje namjera iz sažetaka

Na ovom koraku, finetunirani mali model se koristi za ekstraktovanje jedne rečenice iz sažetaka ekrana. Našli smo da su sljedeće tehnike korisne. Finetuning: Davanje primjerima što “dobra” izjava o namjeri izgleda pomaže modelu da se fokusira na važne dijelove sažetaka i odbaci nekorisne. Koristimo javno dostupne podatke za automatizaciju za podatke za treniranje, jer imaju dobre primjere koji paraju namjeru s nizom akcija. Priprema oznaka: Jer sažetci mogu nedostajati informacije, ako treniramo s punim namjerama, nesvjesno učimo model da popuni detalje koji nisu prisutni (tj. da halucinira). Da bismo to spriječili, prvo uklanjamo sve informacije koje se ne pojavljuju u sažecima iz namjera za treniranje (koristeći zasebni LLM poziv). Odbačivanje spekulacija: Davanje modelu određenog mjesta za iskazivanje spekulacija o tome što korisnik pokušava učiniti pomaže stvoriti potpuniji korak sažetka u prvom koraku, ali može zabuniti ekstraktor namjera u drugom koraku. Zato ne koristimo spekulacije tijekom drugog koraka. Iako ovo može izgledati proturječno – traženje spekulacija u prvom koraku samo da bismo ih odbacili u drugom – našli smo da ovo poboljšava performanse. Drugi korak dekomponiranog radnog toka koristi finetunirani model koji uzima sažetke generirane u prvom koraku kao ulaze i daje konciznu izjavu o namjeri. Tijekom ovog koraka odbacuju se sve spekulacije iz sažetaka i čiste se oznake tijekom treniranja tako da ne potiču halucinacije.

Evaluacijski pristup

Koristimo Bi-Fact pristup za procjenu kvalitete predviđene namjere u odnosu na referentnu namjeru. S ovim pristupom možemo procijeniti koliko je model točan u predviđanju namjere korisnika na temelju njihovih interakcija s korisničkim sučeljem. Naš pristup je pokazao da je vrlo učinkovit u razumijevanju namjera korisnika, čak i kada se radi o malim modelima.

Zaključak

U ovom članku prikazali smo kako mali multimodalni LLM-ovi mogu biti vrlo učinkoviti u razumijevanju namjera korisnika iz sekvenci interakcija na uređaju. Naš pristup dekompozicije pokazao je da je moguće postići rezultate usporedive s mnogo većim modelima, što ga čini idealnim za primjenu na uređaju. Budući da se modeli sve više integriraju u naše svakodnevne aktivnosti, važno je da razumiju naše namjere kako bi mogli pružiti još korisnije i efikasnije iskustvo.

Česta pitanja

1. Zašto je važno razumijevanje namjera korisnika?

Razumijevanje namjera korisnika ključno je za razvoj korisnih i efikasnih AI agenata. Kada agent razumije što korisnik pokušava učiniti, može pružiti preciznije i relevantnije rezultate, poboljšavajući ukupno korisničko iskustvo.

2. Kako mali modeli mogu postići rezultate usporedive s većim modelima?

Mali modeli postižu usporedive rezultate s većim modelima kroz dekompoziciju zadataka na manje, upravljive dijelove. Ovo omogućava modelima da se fokusiraju na specifične aspekte zadatka, što rezultira boljim performansama.

3. Može li ovaj pristup biti primijenjen na druge domene?

Da, ovaj pristup može biti primijenjen na razne domene gdje je važno razumijevanje korisničkih namjera, kao što su chatboti, virtualni asistent i personalizirani preporuke.

4. Kakve su prednosti korištenja malih modela na uređaju?

Korištenje malih modela na uređaju ima nekoliko prednosti, uključujući brzu inferenciju, manju potrošnju energije i sigurnost, jer se osjetljivi podaci ne šalju na poslužitelj.

5. Kako se model trenira da ne halucinira?

Model se trenira da ne halucinira kroz čistu pripremu oznaka tijekom treniranja. Oznake se čiste tako da se uklone informacije koje se ne pojavljuju u sažecima, što spriječava model da popuni detalje koji nisu prisutni. Također, spekulacije se ne koriste tijekom drugog koraka, što dodatno poboljšava performanse.