Mali jezikovni modeli i složeni zadaci razmišljanja

01.02.2026.

195

Kao što se jezikovni modeli (LM) poboljšavaju u zadacima poput generiranja slika, trivijalnih pitanja i jednostavnog računanja, možda mislite da je ljudski razumski razmišljanje na uglu. U stvarnosti, oni su nam još uvijek daleko ispred u složenim zadacima. Probajte igrati Sudoku s jednim, na primjer, gdje popunjavate brojeve od jedan do devet tako da se svaki pojavljuje samo jednom po stupcima, redovima i dijelovima devetnaestogridnog polja. Vaš AI protivnik ili neće popuniti polja sam, ili će to učiniti neefikasno, iako može provjeriti jesu li vi ispravno popunili svoja.

Bilo da LM pokušava riješiti napredne zagonetke, dizajnirati molekule ili pisati matematičke dokaze, sistem ima poteškoća s otvorenim zahtjevima koji imaju stroga pravila. Model je bolji u tome da korisnicima kaže kako pristupiti ovim izazovima nego da ih sam riješi. Osim toga, praktično rješavanje problema zahtijeva od LM-a da razmotri širok raspon mogućnosti dok slijedi ograničenja. Mali LM ne mogu to pouzdano učiniti sami; veliki jezikovni modeli (LLM) to mogu, osobito ako su optimizirani za zadatke razmišljanja, ali im je potrebno vrijeme da odgovore i koriste puno računalne snage.

Ova situacija je potakla istraživače s MIT-ovog Laboratorija za računarstvo i umjetnu inteligenciju (CSAIL) da razviju kolaborativni pristup, gdje LLM radi planiranje, a zatim podijeli posao tog strategije među manjim modelima. Njihova metoda pomaže malim LM-ima da daju točnije odgovore nego vodećim LLM-ima poput OpenAI-ovog GPT-4o, i da se približe preciznosti vrhunskih sustava za razmišljanje kao što je o1, dok su efikasniji od oba.

Njihov okvir, nazvan “Distributional Constraints by Inference Programming with Language Models” (ili “DisCIPL”), ima veliki model da vodi manje “prateće” modele prema preciznim odgovorima prilikom pisanja stvari poput tekstualnih blurbova, popisa namirnica s budžetom i putovnih rasporeda. Unutarnja mehanika DisCIPL-a slična je ugovaranju tvrtke za određeni posao. Dajete “šef” modelu zahtjev, a on pažljivo razmišlja kako to projekt izvesti. Zatim LLM prenosi ove upute i smjernice na jasno manjim modelima. Ispravlja izlaze pratećih LM-a kad je potrebno – na primjer, zamjenjuje frazu jednog modela koja ne odgovara u pjesmi s boljim izborom drugog.

LLM komunicira s pratiteljima koristeći jezik koji svi razumiju – to jest, programski jezik za kontrolu LM-a nazvan error-free code by incorporating the rules of a particular language within its instructions. Directions like “write eight lines of poetry where each line has exactly eight words” are encoded in LLaMPPL, queuing smaller models to contribute to different parts of the answer.

MIT-ov doktorand Gabriel Grand, koji je glavni autor rada koji prezentira ovaj rad, kaže da DisCIPL omogućuje LM-ima da se vodom prema najboljim odgovorima, što poboljšava njihovu ukupnu učinkovitost. “Radimo na poboljšanju učinkovitosti LM-ova u inferenciji, posebno na mnogim modernim aplikacijama ovih modela koje uključuju generiranje izlaza pod ograničenjima,” dodaje Grand, koji je također istraživač CSAIL-a. “Jezikovni modeli troše više energije kako ih se više koristi, što znači da nam trebaju modeli koji mogu dati točne odgovore dok koriste minimalno računalne resurse.”

“Izgleda jako uzbuđujuće vidjeti nove alternative standardnoj LM-inferenciji,” kaže Asistent profesor Alane Suhr s Univerziteta u Kaliforniji u Berkeleyju, koji nije bio uključen u istraživanje. “Ovaj rad poziva nove pristupe jezikovnom modeliranju i LLM-ima koji značajno smanjuju zakasnjenje u inferenciji putem paralelizacije, zahtijevaju značajno manje parametara od trenutnih LLM-ova i čak poboljšavaju izvedbu zadataka u odnosu na standardnu serijaliziranu inferenciju. Rad također pruža prilike za istraživanje prozirnosti, interpretabilnosti i kontrolabilnosti izlaza modela, što je još uvijek velika otvorena problema u implementaciji ovih tehnologija.”

Priča podređenih

Moguće je da mislite da veći LM-ovi “bolji” u složenim zahtjevima od manjih kada je riječ o točnosti i učinkovitosti. DisCIPL sugerira iznenađujuću protuprimjer za ove zadatke: Ako možete kombinirati jačine manjih modela, možda ćete doći do boljih rezultata.

Kombiniranje jačina

Istraživanje pokazuje da kombinacija manjih modela može donijeti bolje rezultate od velikih modela u složenim zadacima. Ovo je zbog toga što manji modeli mogu biti specijalizirani za određene zadatke, dok veći modeli moraju biti sveopći. Na primjer, mali model može biti odličan u generiranju koda, dok drugi može biti odličan u generiranju prirodnog jezika. Kombinacija ovih modela može donijeti bolje rezultate od velikog modela koji pokušava sve.

Efikasnost i energija

Kombinacija manjih modela također može biti efikasnija i manje energijski zahtjevna. Veći modeli troše puno energije i računalnih resursa, što može biti skupo i okruženjski neprijateljsko. Mali modeli, s druge strane, mogu biti efikasniji i manje energijski zahtjevni, što ih čini pogodnijim za široku upotrebu.

Primjeri primjene

DisCIPL se može primijeniti na mnoge različite primjene, uključujući generiranje koda, pisanje prirodnog jezika i generiranje multimedijalnog sadržaja. Na primjer, mali modeli mogu se koristiti za generiranje koda, dok drugi modeli mogu generirati prirodni jezik koji opisuje taj kod. Ovo može biti korisno za programere koji žele generirati kod i dokumentaciju istovremeno.

Zaključak

DisCIPL predstavlja zanimljivu i potencijalno transformativnu metodu za poboljšanje učinkovitosti i točnosti jezikovnih modela. Kombinacija manjih modela može donijeti bolje rezultate od velikih modela u složenim zadacima, dok je istovremeno efikasnija i manje energijski zahtjevna. Ovo istraživanje otvara nove mogućnosti za primjenu jezikovnih modela i može imati duboko utjecaj na budućnost umjetne inteligencije.

Česta pitanja

Koji su prednosti kombinacije manjih modela?

Kombinacija manjih modela može donijeti nekoliko prednosti, uključujući poboljšanu točnost, efikasnost i manju potrošnju energije. Manji modeli mogu biti specijalizirani za određene zadatke, dok veći modeli moraju biti sveopći, što može dovesti do boljih rezultata.

Kako DisCIPL radi?

DisCIPL radi tako što veliki model (šef) razmišlja o strategiji za rješavanje zadatka, a zatim prenosi upute i smjernice manjim modelima (pratiteljima). Pratitelji zatim rade na različitim dijelovima zadatka, a veliki model ispravlja njihove izlaze kad je potrebno.

Koji su primjeri primjene DisCIPL-a?

Koji su budući izzovi za DisCIPL?

Budući izzovi za DisCIPL uključuju poboljšanje učinkovitosti i točnosti modela, kao i istraživanje novih primjena i scenarija. Također je važno istražiti kako se modeli mogu koristiti za rješavanje složenih zadataka u stvarnom svijetu.