Novi način povećanja sposobnosti velikih modela jezika

01.02.2026.

195

Većina jezika koristi položaj riječi i strukturu rečenice za izvučenje značenja. Na primjer, “The cat sat on the box,” nije isto što i “The box was on the cat.” U dugom tekstu, kao što je financijski dokument ili roman, sintaksa ovih riječi vjerojatno evoluira. Isto tako, osoba može pratiti varijable u komadu koda ili slijediti upute s uvjetnim radnjama. Ovo su primjeri promjena stanja i sekvencijalnog razmišljanja koje očekujemo od najsuvremenijih sustava umjetne inteligencije da izvrše; međutim, postojeći, najnoviji mehanizam pažnje unutar transformera – primarno arhitektura korištena u velikim modelima jezika (LLM) za određivanje važnosti riječi – ima teorijske i empirijske ograničenja kada je riječ o takvim sposobnostima.

Mehanizam pažnje omogućuje LLM-u da se vrati na ranije dijelove upita ili dokumenta i, na temelju treniranja, odredi koje detalje i riječi su najvažniji; međutim, ovaj mehanizam sam po sebi ne razumije redoslijed riječi. On “vidi” sve ulazne riječi, a.k.a. tokene, istovremeno i obrađuje ih u redoslijedu u kojem su predstavljeni, pa su istraživači razvili tehnike za kodiranje informacija o položaju. To je ključno za domene koji su vrlo strukturalni, kao što je jezik. Ali dominantna metoda kodiranja položaja, zvana rotacijsko kodiranje položaja (RoPE), uzima u obzir samo relativnu udaljenost između tokena u sekvenci i neovisna je o ulaznim podacima. To znači, na primjer, da riječi koje su udaljene četiri pozicije, kao što su “cat” i “box” u gornjem primjeru, dobivaju istu fiksnu matematičku rotaciju specifičnu za tu relativnu udaljenost.

Sada istraživanje pod vodstvom MIT-a i MIT-IBM Watson AI Lab-a proizvelo je tehniku kodiranja poznatu kao “PaTH Attention” koja čini informaciju o položaju prilagodljivom i svjesnom konteksta umjesto statičnom, kao što je RoPE.

“Transformeri omogućuju točnu i skalabilnu modeliranje mnogih domena, ali imaju ove ograničenja u pogledu praćenja stanja, klasa fenomena koji se smatraju da podliježu važnim sposobnostima koje želimo u našim AI sustavima. Stoga važno pitanje je: Kako možemo održati skalabilnost i učinkovitost transformera, dok omogućimo praćenje stanja?” kaže senior autor radnjice Yoon Kim, docent na Odjelu za elektrotehniku i računarstvo (EECS), član Laboratorija za računarstvo i umjetnu inteligenciju (CSAIL) i istraživač u MIT-IBM Watson AI Lab-u.

Novi članak o ovom radu predstavljen je ranije ovog mjeseca na Konferenciji o obradi neuronskih informacija (NeurIPS). Kimovi suautori uključuju glavnog autora Songlin Yang, studenta EECS-a i bivšeg ljetnog programa internata MIT-IBM Watson AI Lab-a; Kaiyue Wen s Stanfordskog univerziteta; Liliang Ren s Microsofta; i Yikang Shen, Shawn Tan, Mayank Mishra i Rameswar Panda s IBM Research i MIT-IBM Watson AI Lab-a.

Put do razumijevanja

U odnosu na dodjeljivanje svakoj riječi fiksne rotacije na temelju relativne udaljenosti između tokena, kao što to radi RoPE, PaTH Attention je fleksibilan, tretirajući riječi između kao put sastavljen od malih, podatkovno-zavisnih transformacija. Svaka transformacija, temeljena na matematičkoj operaciji zvanoj Householderov odraz, djeluje kao mali zrcalo koje se prilagođava sadržaju svakog tokena koji ga prođe. Svaki korak u sekvenci može utjecati na to kako model tumači informacije kasnije. Kumulativni učinak omogućuje sustavu da modelira kako se značenje mijenja duž puta između riječi, a ne samo koliko su udaljene. Ovaj pristup omogućuje transformerima da prate kako se entiteti i odnosi mijenjaju s vremenom, dajući im osjećaj “pamćenja položaja.” Zamislite to kao šetnju putem dok iskustvo vašeg okruženja utječe na vas. Dalje, tim je također razvio algoritam koji je učinkovit za hardver za efikasnije izračunavanje ocjena pažnje između svakog para tokena tako da se kumulativna matematička transformacija iz PaTH Attention komprimira i razgradi u manje izračune koji su kompatibilni s brzim obradom na GPU-ima.

Ispitivanje PaTH Attention

Sintetski i stvarni zadaci

MIT-IBM istraživači su ispitivali performanse PaTH Attention na sintetskim i stvarnim zadacima, uključujući razmišljanje, dugoročne benchmark testove i puno treniranje LLM-a kako bi vidjeli je li poboljšao modelovu sposobnost praćenja informacija s vremenom. Tim je testirao njegovu sposobnost slijediti najnoviju “write” naredbu uz mnoge distrakcije i višestupanjska testiranja pamćenja, zadaci koji su teški za standardne metode kodiranja položaja kao što je RoPE. Istraživači su također trenirali srednje LLModele i usporedili ih s drugim metodama. PaTH Attention je poboljšao perplexity i nadmašio druge metode na benchmarkima razmišljanja na kojima nije bio treniran. Također su ocijenili dohvat, razmišljanje i stabilnost s ulazima od deset tisuća tokena. PaTH Attention konsistentno je dokazao da je sposoban pratiti informacije s vremenom.

Primjene u stvarnom svijetu

PaTH Attention je pokazao veliku potencijalnu primjenu u stvarnom svijetu. Na primjer, u domeni medicinske dijagnostike, modeli jezika mogu pomoći liječnicima u bržem i preciznijem prepoznavanju bolesti na temelju tekstualnih podataka pacijenata. PaTH Attention može poboljšati sposobnost modela da pravi zaključke o stanju pacijenta na temelju dugih medicinskih izvještaja, što može biti ključno za brzu i točnu dijagnozu.

U domeni financija, PaTH Attention može pomoći u analizi dugih financijskih izvještaja i pružiti detaljnije uvide u financijske trendove i kretanja. To može biti korisno za investicijske tvrtke i banke koje trebaju brzo i precizno razumjeti kompleksne financijske podatke.

U domeni pravosuđa, PaTH Attention može pomoći u analizi dugih pravnih dokumenata i pružiti pravne stručnjake s detaljnijim uvidima u složene pravne slučajeve. To može biti korisno za pravne tvrtke i advokate koji trebaju brzo i precizno razumjeti složene pravne dokumente.

Zaključak

PaTH Attention predstavlja revolucionarni napredak u polju umjetne inteligencije, posebno u poboljšanju sposobnosti velikih modela jezika da prave zaključke o stanju i promjenama s vremenom. Ova nova tehnika kodiranja položaja omogućuje modelima da imaju “pamćenje položaja” i bolje razumiju kontekst i redoslijed riječi u tekstu. To otvara mnoge nove mogućnosti za primjenu u različitim domenama, od medicinske dijagnostike do financija i pravosuđa.

Iako PaTH Attention pokazuje veliku potencijalnu primjenu, važno je napomenuti da je ovo još u ranoj fazi istraživanja. Daljnja istraživanja i testiranja su potrebna kako bi se potvrdile njegove prednosti i ograničenja u stvarnim uvjetima. Također, važno je da se osiguraju etička i pravna okvir za korištenje ovih naprednih AI tehnologija kako bi se spriječilo zloupotreba.

Česta pitanja

Kako PaTH Attention radi?

PaTH Attention je nova tehnika kodiranja položaja koja omogućuje modelima jezika da bolje razumiju kontekst i redoslijed riječi u tekstu. Umjesto da dodjeljuje fiksne rotacije riječima na temelju relativne udaljenosti, PaTH Attention tretira riječi između kao put sastavljen od malih, podatkovno-zavisnih transformacija. Ovo omogućuje modelima da prave zaključke o stanju i promjenama s vremenom.

Koliko je učinkovit PaTH Attention?

PaTH Attention je pokazao veliku učinkovitost u različitim zadacima, uključujući razmišljanje, dugoročne benchmark testove i puno treniranje LLM-a. Uspješno je poboljšao perplexity i nadmašio druge metode na benchmarkima razmišljanja na kojima nije bio treniran. Također je pokazao veliku potencijalnu primjenu u stvarnom svijetu, kao što je medicinska dijagnostika, financije i pravosuđe.

Kako se PaTH Attention razlikuje od RoPE?

PaTH Attention se razlikuje od RoPE-a jer je prilagodljiv i svjestan konteksta, dok je RoPE statičan i neovisan o ulaznim podacima. PaTH Attention tretira riječi između kao put sastavljen od malih, podatkovno-zavisnih transformacija, dok RoPE dodjeljuje fiksne rotacije riječima na temelju relativne udaljenosti.

Kada će PaTH Attention biti dostupan za široku upotrebu?

PaTH Attention je još u ranoj fazi istraživanja, pa je vjerojatno da će biti neko vrijeme prije nego što postane dostupan za široku upotrebu. Daljnja istraživanja i testiranja su potrebna kako bi se potvrdile njegove prednosti i ograničenja u stvarnim uvjetima. Također, važno je da se osiguraju etička i pravna okvir za korištenje ovih naprednih AI tehnologija kako bi se spriječilo zloupotreba.

Koji su potencijalni rizici i izazovi vezani uz PaTH Attention?

Iako PaTH Attention pokazuje veliku potencijalnu primjenu, važno je napomenuti da su s njim povezani potencijalni rizici i izazovi. Na primjer, postoji rizik zloupotrebe ako se ovi napredni AI sustavi ne koriste etički i odgovorno. Također, važno je da se osiguraju etička i pravna okvir za korištenje ovih tehnologija kako bi se spriječilo zloupotreba. Daljnja istraživanja i testiranja su potrebna kako bi se potvrdile njegove prednosti i ograničenja u stvarnim uvjetima.