Generativne AI Modele Učimo Prepoznavanju Osobnih Predmeta

01.02.2026.

196

Pretpostavimo da netko donese svog francuskog buldog, Bowser, na park za pse. Identificiranje Bowsera dok igra s drugim psima na parku je za psa-ljudeva lako. Ali što ako želite koristiti generativni AI model poput GPT-5 da nadgleda vašeg ljubimca dok ste na poslu? Model bi vjerojatno neuspješno izvršio ovu osnovnu zadatak. Modeli vidljivosti-jezik kao GPT-5 često su vješt u prepoznavanju općih predmeta, poput psa, ali loše su u prepoznavanju osobnih predmeta, poput Bowsera, francuskog buldoga.

Novi Metod Učeni Prepoznavanju Osobnih Predmeta

Da bi riješili ovaj nedostatak, istraživači s MIT-a, MIT-IBM Watson AI Lab, Weizmann Instituta znanosti i drugih su predstavili novi metod treniranja koji uči modelima vidljivosti-jezik da lokaliziraju osobne predmete na sceni.

Njihov metod koristi pažljivo pripremljene podatke praćenja videa u kojima se isti predmet prati kroz više okvira. Dizajnirali su skup podataka tako da model mora se fokusirati na kontekstualne znakove za identificiranje osobnog predmeta, umjesto da se oslanja na prethodno zapamćeno znanje.

Kada se modelu pokažu nekoliko primjeraka slika s osobnim predmetom, kao što je neko ljubimac, retrenirani model bolje može identificirati lokaciju tog istog ljubimca u novoj slici.

Modeli retrenirani s njihovim metodom su nadmašili najsuvremenije sustave na ovom zadatku. Važno je da njihova tehnika ostavlja ostatak općih sposobnosti modela netaknutim.

Ovaj novi pristup može pomoći budućim AI sustavima pratiti određene predmete kroz vrijeme, kao što je dječji ranac, ili lokalizirati predmete koji su od interesa, kao što je vrsta životinje u ekološkom nadzoru. Također može pomoći u razvoju AI-pokređenih pomoćnih tehnologija koje pomažu korisnicima s vidnim oštećenjima pronaći određene predmete u sobi.

“Na kraju, želimo da ovi modeli mogu učiti iz konteksta, kao što to čine ljudi. Ako model dobro učini ovo, umjesto da ga retrejniramo za svaku novu zadatak, samo ćemo mu dati nekoliko primjera i on će izvući kako izvesti zadatak iz tog konteksta. To je vrlo moćna sposobnost,” kaže Jehanzeb Mirza, postdoktorant na MIT-u i senior autor članka o ovoj tehnici. Mirza je pridružen na članku s co-lead autorima Sivan Doveh, postdoktorantom na Stanfordu koji je bio doktorand na Weizmann Institutu znanosti kada je ovo istraživanje provedeno; Nimrod Shabtay, istraživačem na IBM Research; James Glass, senior istraživačem i voditeljem grupe za razumijevanje govornog jezika u MIT Computer Science and Artificial Intelligence Laboratory (CSAIL); i ostalima. Rad će biti predstavljen na Međunarodnom kongresu računalne vidljivosti.

Neočekivani Nedostatak

Istraživanje je pokazalo da veliki modeli jezika (LLM) mogu biti vješt u učenju iz konteksta. Ako se LLM-u pokažu nekoliko primjera zadatka, kao što su matematički zadaci, on može naučiti rješavati nove matematičke zadatke na temelju pruženog konteksta.

Model vidljivosti-jezik (VLM) je u suštini LLM s vizualnim komponentom povezanim s njim, pa su MIT istraživači mislili da će naslijediti LLM-ove sposobnosti učenja iz konteksta. Ali to nije slučaj.

“Znanstvena zajednica još nije pronašla crno-bijeli odgovor na ovaj problem. Uske grlo bi moglo nastati iz toga što se neki vizualni podaci gube u procesu spajanja dvije komponente, ali to samo ne znamo,” kaže Mirza.

Istraživači su se usredotočili na podatke koje se koriste za retrejniranje postojećih VLM-a za novi zadatak, proces koji se naziva fine-tuning.

Kreiranje Novog Skup Podataka

Fine-tuning podaci su prikupljeni iz nasumičnih izvora i prikazuju kolekcije svakodnevnih predmeta. Jedna slika može prikazivati automobile parkirane na ulici, dok druga može uključivati buket cvijeća.

“Nema stvarne koherencije u ovim podacima, pa model nikad ne uči prepoznati isti predmet u više slika,” kaže Mirza.

Da bi riješili ovaj problem, istraživači su razvili novi skup podataka kuriranjem uzoraka iz postojećih podataka praćenja videa. Podaci su video klipovi koji prikazuju isti predmet koji se kreće kroz scenu, kao što je tigar koji se kreće po travnjaku.

Izrežali su okvire iz tih videa i strukturirali skup podataka tako da svaki unos sastoji od više slika koje prikazuju isti predmet u različitim kontekstima, s primjerima pitanja i odgovora o njegovoj lokaciji.

“Koristeći više slika istog predmeta u različitim kontekstima, potičemo model da konzistentno lokalizira predmet od interesa fokusirajući se na kontekst,” objasnio je Mirza.

Modeli Vidljivosti-Jezik Igraju Igre

Ali istraživači su pronašli da VLM-ovi igraju igre. Umjesto da odgovaraju na kontekstualne znakove, oni će identificirati predmet koristeći znanje steknuto tijekom pretraininga.

Na primjer, jer model već zna da je tigar, on će identificirati tigra u novoj slici bez obzira na kontekst. To je problem jer model ne uči iz konteksta, već se oslanja na svoje prethodno steknuto znanje.

Da bi riješili ovaj problem, Mirza i njegovi suradnici su razvili novi metod koji koristi kontekstualne znakove za identificiranje predmeta. Metod uključuje korištenje više slika istog predmeta u različitim kontekstima kako bi model naučio prepoznavati predmet na temelju konteksta.

Budućnost Učenja Iz Konteksta

Mirza i njegovi suradnici vjeruju da njihov metod može biti koristan za buduće AI sustave koji trebaju prepoznavati i pratiti predmete u različitim kontekstima. Metod može biti koristan za ekološki nadzor, pratiti dječji ranac ili pomoći korisnicima s vidnim oštećenjima pronaći određene predmete u sobi.

“Naš cilj je razviti modele koji mogu učiti iz konteksta, kao što to čine ljudi. To bi moglo značiti da ne moramo retrejnirati modele za svaku novu zadatak, već samo im dati nekoliko primjera i oni će izvući kako izvesti zadatak iz tog konteksta,” kaže Mirza.

Zaključak

Novi metod koji uči modelima vidljivosti-jezik prepoznavanje osobnih predmeta može imati veliku primjenu u budućnosti. Metod koristi kontekstualne znakove za identificiranje predmeta, što je korisno za ekološki nadzor, pratiti dječji ranac ili pomoći korisnicima s vidnim oštećenjima. Iako postoje izazovi, kao što je modeli koji igraju igre, istraživači su razvili metode koji mogu riješiti ove probleme i omogućiti modelima da učine više iz konteksta.

Česta Pitanja

Koji su predmeti koji se mogu prepoznati s ovim metodom?

Ovaj metod može se koristiti za prepoznavanje bilo kojeg predmeta koji se može pratiti kroz vrijeme, kao što su dječji ranac, životinje u ekološkom nadzoru ili predmeti u sobi za korisnike s vidnim oštećenjima.

Koliko je efikasan ovaj metod?

Istraživanja su pokazala da je ovaj metod vrlo efikasan u prepoznavanju osobnih predmeta. Modeli retrenirani s ovim metodom su nadmašili najsuvremenije sustave na ovom zadatku.

Može li ovaj metod biti koristan za druge AI aplikacije?

Da, ovaj metod može biti koristan za druge AI aplikacije koje trebaju prepoznavati i pratiti predmete u različitim kontekstima. Na primjer, može se koristiti za ekološki nadzor, pratiti dječji ranac ili pomoći korisnicima s vidnim oštećenjima.

Koji su izazovi s ovim metodom?

Jedan od izazova s ovim metodom je da modeli mogu “igrati igre” i identificirati predmet koristeći znanje steknuto tijekom pretraininga, umjesto da se oslanjaju na kontekstualne znakove. Istraživači su razvili metode koji mogu riješiti ove probleme i omogućiti modelima da učine više iz konteksta.

Kada će ovaj metod biti dostupan za javnost?

Ovaj metod je već dostupan za javnost i može se koristiti u različitim AI aplikacijama. Istraživači su objavili članak o ovoj tehnici i rad će biti predstavljen na Međunarodnom kongresu računalne vidljivosti.