Računalne znanosti Tehnologija Umjetna inteligencija

Kako PaTH Attention mijenja sposobnosti velikih jezičnih modela

17.12.2025.

196

Većina jezika koristi poziciju riječi i strukturu rečenice za izvlačenje značenja. Primjerice, "Mačka je sjedila na kutiji" nije isto što i "Kutija je bila na mački. " U dužem tekstu, poput financijskog dokumenta ili romana, sintaksa ovih riječi vjerojatno se razvija.

Većina jezika koristi poziciju riječi i strukturu rečenice za izvlačenje značenja. Primjerice, “Mačka je sjedila na kutiji” nije isto što i “Kutija je bila na mački.” U dužem tekstu, poput financijskog dokumenta ili romana, sintaksa ovih riječi vjerojatno se razvija. Osoba može pratiti varijable u dijelu koda ili slijediti upute s uvjetnim radnjama. To su primjeri promjena stanja i sekvencijalnog zaključivanja za koje očekujemo da će vrhunski sustavi umjetne inteligencije biti izvrsni; međutim, postojeći, najsuvremeniji mehanizam pažnje unutar transformatora — primarne arhitekture korištene u velikim jezičnim modelima (LLM-ovima) za određivanje važnosti riječi — ima teorijska i empirijska ograničenja kada su u pitanju takve sposobnosti.

Što je mehanizam pažnje i zašto ima ograničenja?

Mehanizam pažnje omogućuje LLM-u da se osvrne na ranije dijelove upita ili dokumenta i, na temelju svog treniranja, odredi koji detalji i riječi su najvažniji; međutim, sam ovaj mehanizam ne razumije redoslijed riječi. On “vidi” sve ulazne riječi, odnosno tokene, u isto vrijeme i obrađuje ih redoslijedom kojim su predstavljeni, pa su istraživači razvili tehnike za kodiranje informacija o poziciji. Ovo je ključno za domene koje su visoko strukturirane, poput jezika. No, prevladavajuća metoda kodiranja pozicije, nazvana rotacijsko kodiranje pozicije (RoPE), uzima u obzir samo relativnu udaljenost između tokena u nizu i neovisna je o ulaznim podacima. To znači da će, primjerice, riječi koje su četiri pozicije udaljene, poput “mačka” i “kutija” u gornjem primjeru, sve dobiti istu fiksnu matematičku rotaciju specifičnu za tu relativnu udaljenost.

Problemi s RoPE kodiranjem

RoPE, iako učinkovit za mnoge zadatke, ne može adekvatno pratiti promjene stanja ili konteksta unutar niza. Na primjer, u složenijim scenarijima poput programiranja ili pripovijedanja, gdje se značenje dinamički mijenja, RoPE ostaje statičan i ne prilagođava se sadržaju. Ovo ograničenje može dovesti do manjeg razumijevanja dugih tekstova ili složenih uputa, što je izazov za mnoge moderne LLM-ove.

Uvod u PaTH Attention: Revolucionarni pristup

Nedavno istraživanje predvođeno MIT-om i MIT-IBM Watson AI Lab-om proizvelo je tehniku kodiranja poznatu kao “PaTH Attention” koja čini pozicijske informacije adaptivnima i svjesnima konteksta, umjesto statičnima, kao što je slučaj s RoPE-om. Ova inovacija omogućuje transformatorima bolje praćenje stanja i sekvencijalno zaključivanje, što je ključno za napredne AI sposobnosti.

“Transformatori omogućuju precizno i skalabilno modeliranje mnogih domena, ali imaju ova ograničenja u odnosu na praćenje stanja, klasu pojava za koju se smatra da je temelj važnih sposobnosti koje želimo u našim AI sustavima. Dakle, važno pitanje je: Kako možemo održati skalabilnost i učinkovitost transformatora, dok omogućujemo praćenje stanja?” kaže senior autor rada Yoon Kim, izvanredni profesor na Odjelu za elektrotehniku i računarstvo (EECS), član Laboratorija za računalnu znanost i umjetnu inteligenciju (CSAIL) i istraživač u MIT-IBM Watson AI Lab-u.

Kako funkcionira PaTH Attention?

Umjesto dodjeljivanja svakoj riječi fiksne rotacije na temelju relativne udaljenosti između tokena, kao što to čini RoPE, PaTH Attention je fleksibilan, tretirajući riječi između kao put sastavljen od malih, o podacima ovisnih transformacija. Svaka transformacija, temeljena na matematičkoj operaciji zvanoj Householder refleksija, djeluje poput malog zrcala koje se prilagođava ovisno o sadržaju svakog tokena kroz koji prolazi. Svaki korak u nizu može utjecati na to kako model tumači informacije kasnije. Kumulativni učinak omogućuje sustavu da modelira kako se značenje mijenja duž puta između riječi, a ne samo koliko su udaljene. Ovaj pristup omogućuje transformatorima da prate kako se entiteti i odnosi mijenjaju tijekom vremena, dajući im osjećaj “pozicijskog pamćenja”. Zamislite ovo kao hodanje putem dok doživljavate svoju okolinu i kako ona utječe na vas. Nadalje, tim je također razvio hardverski učinkovit algoritam za učinkovitije izračunavanje rezultata pažnje između svakog para tokena tako da je kumulativna matematička transformacija iz PaTH Attention komprimirana i podijeljena na manje izračune kako bi bila kompatibilna s brzom obradom na GPU-ima.

Rezultati i testiranja PaTH Attentiona

MIT-IBM istraživači su zatim istražili performanse PaTH Attentiona na sintetičkim i stvarnim zadacima, uključujući zaključivanje, benchmarkove dugog konteksta i potpuno treniranje LLM-ova kako bi vidjeli poboljšava li se sposobnost modela za praćenje informacija tijekom vremena. Tim je testirao njegovu sposobnost da slijedi najnoviju “naredbu za pisanje” unatoč mnogim ometajućim koracima i testovima višekoraknog prisjećanja, zadacima koji su teški za standardne metode kodiranja pozicije poput RoPE-a. Istraživači su također trenirali LLM-ove srednje veličine i usporedili ih s drugim metodama. PaTH Attention je poboljšao perplexity i nadmašio druge metode na benchmarkovima zaključivanja na kojima nije bio treniran. Također su procijenili pronalaženje, zaključivanje i stabilnost s ulazima od desetaka tisuća tokena. PaTH Attention se dosljedno pokazao sposobnijim od konkurencije, posebno u zadacima koji zahtijevaju dinamičko praćenje konteksta.

Primjeri uspješne primjene

U jednom testu, PaTH Attention je točno pratio naredbe u programskom kodu unatoč višestrukim distrakcijama, dok je RoPE često griješio. U drugom scenariju, modeli s PaTH Attentionom bolje su se snalazili u dugim pričama, točnije pamteći detalje s početka teksta. Ovo pokazuje potencijal za poboljšanje u područjima kao što su automatsko sažimanje, prevođenje jezika i generiranje koda.

Zaključak: Što PaTH Attention znači za budućnost AI-a?

PaTH Attention predstavlja značajan korak naprijed u poboljšanju sposobnosti velikih jezičnih modela, posebno u područjima koja zahtijevaju praćenje stanja i sekvencijalno zaključivanje. Njegova adaptivna priroda i kontekstualna svijest omogućuju preciznije i fleksibilnije obrade jezika, što može dovesti do napretka u raznim primjenama, od chatbotsa do automatskog programiranja. Iako je tehnologija još uvijek u razvoju, rani rezultati obećavaju i sugeriraju da će PaTH Attention postati ključnu ulogu u sljedećoj generaciji AI alata.

Često postavljena pitanja o PaTH Attentionu

Što je glavna prednost PaTH Attentiona u odnosu na RoPE?
Glavna prednost je njegova adaptivnost; PaTH Attention prilagođava se sadržaju tokena, omogućujući bolje praćenje konteksta i promjena stanja, dok je RoPE statičan i temelji se samo na relativnoj udaljenosti.

Može li PaTH Attention poboljšati postojeće LLM-ove?
Da, integracija PaTH Attentiona može unaprijediti postojeće modele, posebno u zadacima koji uključuju dugi kontekst ili složeno zaključivanje, iako zahtijeva prilagodbu arhitekture i dodatno treniranje.

Je li PaTH Attention kompatibilan s trenutnim hardverom?
Da, razvijen je hardverski učinkovit algoritam kako bi se osigurala kompatibilnost s GPU-ima, što ga čini praktičnim za široku primjenu.

Koje su granice PaTH Attentiona?
Iako napredan, može zahtijevati više računalnih resursa za neke zadatke u usporedbi s RoPE-om, a njegova učinkovitost može varirati ovisno o specifičnom kontekstu i podacima.

Kada možemo očekivati širu implementaciju PaTH Attentiona?
S obzirom na nedavno objavljivanje, šira implementacija vjerojatno će trajati nekoliko godina kako se tehnologija dodatno testira i optimizira, ali rani adoptatori već eksperimentiraju s njegovim integracijama.