Istraživači otkrivaju nedostatak koji čini LLModele manje pouzdanim

01.02.2026.

197

Veliki jezikovni modeli (LLM) ponekad uče pogrešne lekcije, prema studiji MIT-a. Umjesto da odgovore na upit na temelju znanja o domeni, LLM može odgovoriti iskorištavanjem gramatičkih uzoraka koje je naučio tijekom treniranja.

Kako LLModeli uče pogrešne lekcije

Istraživači su otkrili da modeli mogu pogrešno povezati određene uzorke rečenica s određenim temama. Stoga LLM može dati uvjerljiv odgovor prepoznavanjem poznate frazeologije umjesto razumijevanja pitanja.

Njihovi eksperimenti pokazali su da čak i najmoćniji LLModeli mogu napraviti ovu pogrešku.

Rizici pouzdanosti

Ovaj nedostatak može smanjiti pouzdanost LLModela koji obavljaju zadatke kao što su rukovanje upitima korisnika, sažimanje kliničkih bilježaka i generiranje financijskih izvješća.

To također može imati sigurnosne rizike. Zlonamjerni glumac mogao bi iskoristiti ovo da zavara LLModele da proizvedu štetni sadržaj, čak i kada modeli imaju zaštitne mehanizme da spriječe takve odgovore.

Identifikacija i mitigacija problema

Nakon što su identificirali ovaj fenomen i istražili njegove implikacije, istraživači su razvili proceduru za benchmarking kako bi procijenili koliko se model oslanja na ove netočne korelacije. Ova procedura može pomoći razvijačima da mitiguju problem prije implementacije LLModela.

“Ovo je nusprodukt toga kako treniramo modele, ali modeli se sada koriste u praktičnim sigurnosno-kritičnim domenama daleko izvan zadataka koji su stvorili ove sintaksne pogreške. Ako niste upoznati s treniranjem modela kao krajnji korisnik, ovo vjerojatno će biti neočekivano,” kaže Marzyeh Ghassemi, docent na MIT-u u Odjelu za elektrotehniku i računarstvo (EECS), član MIT Instituta za medicinske inženjerske znanosti i Laboratorija za informacije i odluke, te senior autor studije.

Ghassemi je pridružena koautori Chantal Shaib, studentica postdiplomskih studija na Sveučilištu Northeastern i gostujući student na MIT-u; Vinith Suriyakumar, student diplomskog studija na MIT-u; Levent Sagun, istraživač na Meta; i Byron Wallace, interdisciplinarni asocijirani profesor Sy i Laurie Sternberg i asocijirani dekan za istraživanje na Khoury College of Computer Sciences na Sveučilištu Northeastern. Članak o radu bit će predstavljen na Konferenciji o obradi informacija u neuronskim mrežama.

Učenje sintakse od LLModela

LLModeli se treniraju na ogromnom iznosu teksta s interneta. Tijekom ovog procesa treniranja, model uči razumijevanje odnosa između riječi i fraza – znanje koje koristi kasnije kada odgovara na upite.

U prethodnom radu, istraživači su pronašli da LLModeli prepoznaju uzorke u dijelovima govora koji često pojavljuju zajedno u podacima za treniranje. Ove uzorke dijelova govora nazivaju “sintaksne predloške”.

LLModelima je potrebno ovo razumijevanje sintakse, uz semantičko znanje, da bi odgovorili na pitanja u određenoj domeni.

“Na primjer, u novinskoj domeni postoji određeni stil pisanja. Stoga ne samo da model uči semantiku, već i osnovnu strukturu kako bi rečenice bile sastavljene kako bi slijedile određeni stil za tu domenu,” objašnjava Shaib.

Ali u ovom istraživanju utvrđeno je da LLModeli uče povezati ove sintaksne predloške s određenim domenama. Model može pogrešno isključivo osloniti na ovo naučeno povezivanje kada odgovara na pitanja, umjesto na razumijevanje upita i predmeta.

Na primjer, LLM može naučiti da pitanje poput “Gdje se nalazi Pariz?” ima strukturu adverb/glagol/vlastito ime/glagol. Ako ima puno primjera sastavljanja rečenica u podacima za treniranje modela, LLM može povezati taj sintaksni predložak s pitanjima o zemljama.

Stoga, ako model dobije novo pitanje s istom gramatičkom strukturom, ali nesmislenim riječima, kao što je “Brzo sjedi Pariz oblačno?” mogao bi odgovoriti “Francuska”, čak i ako taj odgovor nema smisla.

“Ovo je zanemareni tip asocijacije koju model uči kako bi odgovorio na pitanja ispravno. Trebalo bi se više pažnje posvetiti ne samo semantici, već i sintaksi podataka koje koristimo za treniranje naših modela,” kaže Shaib.

Propustanje značenja

Istraživači su testirali ovaj fenomen dizajnirajući sintetičke eksperimente u kojima se u podacima za treniranje modela pojavljuje samo jedan sintaksni predložak za svaku domenu. Testirali su modele zamjenom riječi s sinonimima, antonimima ili nasumičnim riječima, ali su zadržali osnovnu sintaksu.

U svakom slučaju pronašli su da LLModeli često još uvijek daju ispravan odgovor, čak i kada je pitanje potpuno nesmisleno.

Kada su preuredili isto pitanje koristeći novi uzorak dijela govora, LLModeli često nisu uspjeli dati ispravan odgovor, čak i kada je osnovno značenje pitanja ostalo isto.

Ovim pristupom testirali su pretrenirane modele.

Zaključak

Otkriće da LLModeli mogu pogrešno povezati sintaksne predloške s određenim domenama ima važna implikacija za razvoj i implementaciju ovih modela. Razvijači moraju biti svjesni da modeli mogu naučiti netočne korelacije između sintakse i domena, što može dovesti do pogrešnih odgovora. To je posebno važno u sigurnosno-kritičnim domenama gdje se modeli koriste za važne odluke.

Istraživači su razvili proceduru za benchmarking kako bi se moglo procijeniti koliko se model oslanja na ove netočne korelacije. Ova procedura može pomoći razvijačima da mitiguju problem prije implementacije LLModela.

Česta pitanja

Koji su najčešći sintaksni predlošci koje LLModeli uče?

Najčešći sintaksni predlošci koje LLModeli uče uključuju uzorke dijelova govora koji često pojavljuju zajedno u podacima za treniranje. Ovi predlošci mogu uključivati strukture kao što su adverb/glagol/vlastito ime/glagol, koji se često pojavljuju u pitanjima o zemljama.

Može li se ovaj problem riješiti?

Da, istraživači su razvili proceduru za benchmarking kako bi se moglo procijeniti koliko se model oslanja na netočne korelacije. Ova procedura može pomoći razvijačima da mitiguju problem prije implementacije LLModela. Također, razvijači mogu koristiti različite tehnike za poboljšanje semantičkog razumijevanja modela, kao što je korištenje većeg i raznovrsnijeg skupa podataka za treniranje.

Koliko je ova problema u praksi?

Ovaj problem se javlja u praksi, ali njegov utjecaj može varirati ovisno o domeni i specifičnim zadacima. Istraživači su pronašli da LLModeli često daju ispravne odgovore čak i kada je pitanje potpuno nesmisleno, što ukazuje na to da se model oslanja na sintaksne predloške umjesto na semantičko razumijevanje.

Koji su sigurnosni rizici povezani s ovim problemom?

Sigurnosni rizici povezani s ovim problemom uključuju mogućnost da zlonamjerni glumac iskoristi LLModele da proizvede štetni sadržaj. Na primjer, modeli koji se koriste za generiranje teksta mogu biti zavarani da proizvedu lažne novosti ili manipulativne poruke. Također, modeli koji se koriste za automatizaciju sigurnosnih sustava mogu biti zavarani da dopuste neovlašteni pristup.

Kako se ovaj problem može mitigirati?

Ovaj problem se može mitigirati razvojem procedura za benchmarking koje mogu procijeniti koliko se model oslanja na netočne korelacije. Također, razvijači mogu koristiti različite tehnike za poboljšanje semantičkog razumijevanja modela, kao što je korištenje većeg i raznovrsnijeg skupa podataka za treniranje. Na kraju, korisnici modela moraju biti svjesni da modeli mogu naučiti netočne korelacije i da je potrebno provjeriti ispravnost njihovih odgovora.