Od Transformatora do Asocijativne Memorije: Kako Titans i MIRAS redefiniraju dug kontekst modeliranja

08.12.2025.

201

U svijetu umjetne inteligencije, priča o transformatorima i njihovim ograničenjima nije završila. Dapače, Google Research predlaže nove pristupe koji industriji otvaraju mogućnost rada s dugotrajnijim kontekstima bez drastičnog povećanja troškova obuke ili latencyja tijekom inferencije. Zanimljiva sintagma koja sumira ovu temu glasi: “From Transformers to Associative Memory, How Titans and MIRAS Rethink Long Context Modeling” — i to nije samo naslov; to je poziv na razumijevanje kako Titans i MIRAS mogu pretvoriti dugoročno pamćenje iz teorije u primjenu. U ovom članku istražujemo što se krije iza Titans-a i MIRAS-a, kako funkcioniraju, koje su njihove prednosti i gdje bi ih tehnologija u budućnosti mogla najviše promijeniti.

Zašto Titans i MIRAS mijenjaju igru

Klasični transformatori koriste mehanizam pažnje nad ključem i vrijednošću (key–value cache), što omogućuje snažno učenje u kontekstu, ali cijena raste kvadratno s duljinom konteksta. Čini se da moderni zadaci zahtijevaju puno dublje razumijevanje dugih vremenskih uzoraka, ali financijski i računski trošak postaje nerazmjerno velik čak i uz napredne taktike poput FlashAttentiona i sličnih optimizacija kernela.

S druge strane, linearni rekurentni neuronski mrežni modeli i modeli državnog prostora (state-space models), poput Mamba-2, efikasno komprimiraju povijest u fiksnu veličinu stanja, čime je trošak linearan u duljini sekvence. No ta se kompresija gubi na nativnoj informaciji kada su konteksti jako dugi, što pogoršava zadatke poput modeliranja genoma ili iznimno dugačkog dohvaćanja informacija.

Rješenje magistralnih razmjera dolazi iz kombinacije ovih pristupa. Titans i MIRAS povezuju ideje: pažnja ostaje precizna kao kratkoročno pamćenje na trenutnom prozoru, dok zasebna neuronska memorija pruža dugoročno pamćenje koje se uči tijekom testiranja i dizajnirana je da bude paralelizirana na akceleratorima. Takav pristup zadržava prednost pažnje za kratkoročne tokove podataka, ali proširuje memoriju nadohvat ruke za čuvanje informacija iz priješnjih dijelova konteksta.

Zašto Titans i MIRAS?

Transformersi tradicionalno obrađuju kontekst kroz mehanizam pažnje koji se zasniva na učinku čitanja iz memorije koja je konstantno prisutna tijekom zadane sekvence. Tijekom tog procesa, cijena se povećava s duljinom konteksta, što znači da u praksi često ostaje krajnost na kraćim prozorima. Ovo je svakako efikasno za mnoge zadatke, ali nije optimalno kada trebamo dublje razumijevanje kroz stotine ili tisuće tokena, a kamoli milijune.

U međuvremenu, modeli s linearnom složenošću imaju prednost u brzini, ali njihova sposobnost zadržavanja informacija iz ranijih dijelova teksta često je ograničena. Kada se kontekst produži, oni gube relevantnost i performanse padaju, što se naročito očituje u zadacima dugog zahtjeva memorije ili kompleksnom dohvaćanju informacija iz velikih korpusa.

Titans i MIRAS nude kompromis: pažnja ostaje precizna i diskretna na kratkoročni prozor, dok long-term memorija radi na drugačijem principu. Memorijski modul postaje dio arhitekture koji uči i prilagođava se tijekom testiranja, uz dizajn koji omogućava paralelizaciju tih ažuriranja na modernim akceleratorima. To znači da možemo imati dugoročno pamćenje bez žrtvovanja brzine treniranja ili iskorištavanja paralelne obrade.

Titans – neuronska dugoročna memorija koja uči pri testiranju

Titans, a neural long term memory that learns at test time

Rad Titansa predstavlja modul dugoročne memorije koji je sam po sebi duboki višestupanjski perceptron, a ne samo vektor ili stanje matrice. Pažnja ostaje kratkoročno pamćenje jer gleda samo na prozor, dok neuronska memorija djeluje kao trajno dugoročno pamćenje koje se uči tijekom vremena. Ovakav okvir omogućuje dinamičko usklađivanje s novim informacijama koja se pojave izvan trenutnog konteksta.

Za svaki token Titan definira asociativno gubljenje memorije, koje možemo zapisati kao:

ℓ(Mₜ₋₁; kₜ, vₜ) = ‖Mₜ₋₁(kₜ) − vₜ‖²

gdje je Mₜ₋₁ trenutačno stanje memorije, kₜ ključ, a vₜ vrijednost. Paralelno s ovim, gradedni prikaz gubitka s obzirom na parametre memorije predstavlja „surprise metric“ (metrika iznenađenja). Veliki gradijenti ukazuju na tokenе koji bi trebali biti pohranjeni jer donose značajne nove informacije; manji gradijenti ukazuju na očekivane tokove koji mogu biti ignorirani bez značajnog gubitka performansi.

Parametri memorije ažuriraju se pri testiranju kroz gradijentno spuštanje uz momentum i weight decay. Ovi elementi djeluju kao retention gate i mehanizam zaborava, pomažući da memorija ostane svježa i prilagodljiva. Da bi ovo online optimiziranje bilo učinkovito, radi se o načinima za izračunavanje ažuriranja s batched matrijskim množenjima unutar sekvencijskih dijelova, što očuvava paralelno treniranje i na iznimno dugim nizovima.

Arhitekturalno, Titans koristi tri grane memorije u backboneu, često instancirane u Titans MAC varijanti:

osnovna grana koja obavlja standardno učenje unutar konteksta s pažnjom;
kontekstualna memorijska grana koja uči iz nedavnog niza;
perzistirajuća memorijska grana s fiksnim težinama koja kodira znanje iz predtreninga.

Long-term memorija komprimira prošle tokove tokena u sažetak, koji se zatim prosljeđuje kao dodatni kontekst u pažnju. Pažnja tada može odlučiti kada će pročitati taj sažetak i upotrijebiti ga za donošenje odluka.

Kako stvoriti sažetak iz dugotrajnog konteksta

U praksi, Titans-ov proizvoljni mehanizam sažimanja omogućava pretraživanje informacija koje prelaze granice trenutnog prozora. To znači da prethodni događaji nisu izgubili vrijednost; oni su integrirani u zaseban modul memorije. Ovaj pristup omogućuje efektivno čuvanje semantičkih veza i kontekstualnih detalja kroz duže razdoblje, bez potrebe da cijelo vrijeme posjećujemo kompletan dugi prozor teksta.

Postupci ažuriranja memorije uz održavanje paralelizma su dizajnirani za moderne grafičke procesore i TPU-e. U praksi to znači da možemo trenirati modele kojemu je dugoročna memorija ključna, a trošak po tokenu ostaje moguć za veće segmente bez naglog porasta latencije.

Arhitektura Titans – tri memorijske grane

Detalji koji se izdvajaju u arhitekturi Titans MAC (Memory-Augmented Compute) varijanti su tri memorijske grane koje međusobno nadopunjuju: osnovna, kontekstualna i perzistentna memorija. Osnovna grana služi za standardno učenje s pažnjom na trenutni prozor, kontekstualna grana proširuje uvid u nedavni slijed, a perzistentna memorija zadržava duhovne znakove znanja iz predtreninga i ranijih faza. Ovakav raspored omogućuje da dublje razumijevanje bude neovisno o trenutačnom kontekstu, a istovremeno da kratkoročna pažnja ostane fokusirana na kratke prozore bez gubitka važnih informacija koje leže u dugotrajnoj memoriji.

MIRAS – opći okvir za online optimizaciju memorije

MIRAS je opći okvir koji gleda većinu modernih sekvencijskih modela kao primjere online optimizacije nad asocijativnom memorijom. Umjesto fiksne, statične memorije, MIRAS prepoznaje da memori mogu biti dinamični entiteti koji se prilagođavaju tijekom vremena. Koristi se u kombinaciji s Titans-ovim idejama kako bi se stvorio efektivniji i agilniji sustav za predviđanje i dohvat informacija iz dugih konteksta.

Asocijativna memorija, u ovom kontekstu, predstavlja fleksibilnu strukturu koja povezuje izlaze iz različitih točaka teksta kroz ključne asocijacije. Umjesto da cijelo vrijeme zadržavamo cijeli niz informacija, MIRAS uči gdje i kada učitavati određene dijelove memorije, te kako prilagoditi dinamiku memorije da bude pogodna za razne zadatke: generiranje teksta, razonovanje, pretraživanje informacija i sintezu novih koncepata.

Glavna prednost MIRAS-a leži u njegovom pristupu online optimizaciji: ažuriranja memorije događaju se na temelju trenutnih ulaza i vrijednosti, a opet su dizajnirana da budu paralelizirana na modernim akceleratorima. Takav pristup omogućava da se memorija postupno poboljšava s svakim novim zadatkom, bez potrebe za ponovnim treniranjem cijelog modela iz početka.

Eksperimentalni rezultati Titans

Rezultati za Titans

U eksperimentalnom okviru, Titans arhitektura s dugoročnom memorijom pokazuje poboljšanja na zadacima jezničkog modeliranja i razonovanja na skupovima poput C4, WikiText i HellaSwag. Uspoređujući s postojećim linearnim rekurentnim bazama poput Mamba-2 i DeltaNet te s Transformer++ modelima s usporedivim veličinama, Titans dospijeva na višu razinu izražajne moći memorije. Googleov tim pripisuje to poboljšanje većoj izrazitoj snazi duboke memorije i njezinoj sposobnosti da održi ili poboljša performanse kako kontekst raste. Dublje memorijske strukture s istim parametarskim budžetom rezultiraju nižim perplexity-jem, što ukazuje na učinkovitije zadržavanje i pristup ranijim informacijama.

Za zadatke s ekstremno dugim kontekstom, istraživači su koristili BABILong benchmark, gdje se činjenice distribuiraju kroz vrlo dugačke dokumente. Titans nadmašuje sve baseline modele, uključujući i velike modele poput GPT-4, ali uz znatno manji broj parametara. Osim toga, Titans se može proširiti i kontekstne prozore nad 2,000,000 tokena, što ukazuje na izdržljivost i skalabilnost u scenarijima koji zahtijevaju dohvat informacija iz iznimno velikih korpusa.

Što ovi rezultati znače u praksi?

Praktičan zaključak iz ovih rezultata je da dugoročna memorija ne samo da smanjuje potrebu za ogromnim proxyjem pohranjenih informacija u trenutnom prozoru, nego i omogućava dinamičko prilagođavanje toka informacija kroz vrijeme. To može značajno povećati točnost i dosljednost odgovora u sustavima za generiranje teksta, ali i povećati sposobnost sustava za dulje dio dohvaćanja i analize. U svjetlu ovih rezultata, Titans i MIRAS otvaraju nove putove za primjene poput analize pravnih dokumenata, medicinskih izvještaja, tehničkih priručnika ili velikih korpusa znanstvenih radova gdje je kontekst ključan za ispravno razumijevanje.

U praksi, Titan–MIRAS pristup omogućava používanje sofisticiranih modela s dugoročnim pamćenjem uz troškovnu učinkovitost, te nudi jasnu trasu za daljnja istraživanja i razvoj u području dugotrajnog konteksta. Ova kombinacija obećava ne samo veće performanse, nego i bolju interpretabilnost i prilagodljivost zadacima koji zahtijevaju držanje značajnih informacija kroz dugi vremenski niz.

Tehničke implikacije i primjene

Implementacija Titans i MIRAS-a donosi nekoliko važnih implikacija za razvoj i primjenu AI sustava. Prije svega, mogućnost paralelnog treniranja i efikasnog online ažuriranja memorije značajno smanjuje vrijeme potrebno za istraživanje i testiranje novih arhitektura u realnim uvjetima. Drugo, razina prilagodljivosti memorije omogućava modelima da bolje razumiju složene sekvence, gdje su odnosi među događajima i kontekstima raspoređeni diljem velikih dijelova teksta. Treće, na razini infrastrukture, arhitektura Titans MAC varijante potencijalno zahtijeva optimizacije na nivou softvera i hardvera kako bi se maksimalno iskoristila paralelizacija i operacije na velikim matrikama. U praksi to znači bolje iskorištenje GPU-a/TPU-a i efikasniji throughput, uz zadržavanje niske latencije kod inferencije.

Primjene su široke: od sofisticiranog pretraživanja i stresnih zadataka razonovanja do analize dokumentacije, sažetaka velikih korpusa i dinamičkog dohvaćanja informacija iz baze znanja. U industriji to može značiti bržu izgradnju alata za pravne istraživače koji trebaju izvući ključne činjenice iz masivnih pravnih dokumenata, ili alata za znanstvene istraživače koji traže povezivanje koncepata kroz stare i nove radove. U obrazovanju, ovakva tehnologija može pomoći u kreiranju prilagođenih tutorijala koji uzimaju u obzir dugački kontekst učenika i sakupljaju relevantne činjenice iz različitih dotadašnjih interakcija.

Pro i kontra Titans i MIRAS pristupa

Prednosti: sposobnost zadržavanja dugoročnih informacija bez kvantnog skoka troškova, paralelizacija ažuriranja, bolje performanse na zadacima s vrlo dugim kontekstima, fleksibilnost kroz MIRAS okvir, mogućnost primjene na postojeće Transformer-based modele uz prilagodbe.
Nedostaci: složenost implementacije i potrošnja memorije tijekom treninga za memorijske parametre; zahtjevi za specifičnim infrastrukturnim resursima; potrebno razumno balansirati između duljine prozora i održavanja memorije, kako bi se spriječila memorijska drift i degradacija performansi tijekom vremena.

Praktični vodič za istraživače i developere

Za one koji razmišljaju o primjeni Titan–MIRAS pristupa, nekoliko smjernica može biti korisno. Prvo, započnite s postojećim Transformer-based modelom i dodajte modul dugoročne memorije koji može učiti tijekom testiranja. Drugo, dizajnirajte način na koji će se sažeci iz dugoročne memorije integrirati u kratkoročne slojeve pažnje — to može biti kroz dodatni kontekstualni sloj ili kroz dinamično iskorištavanje sažetka u trenutnom prozoru. Treće, uspostavite jasne mehanizme za praćenje „surprise metric“ kako biste prilagodili doseg memorije i odlučili koje informacije vrijedi zadržati za buduće zadatke. Četvrto, planirajte inženjering vezan uz treniranje i inferenciju, posebno korištenje batched matrix multiplications kako bi se maksimizirao paralelizam i minimizirala latencija.

Što se tiče tržišnih i statističkih konteksta, dugoročna memorija može pružiti koherentne performanse i znatno poboljšati robusnost modela na zadacima s dugačkim kontekstima. Iako su točan broj parametara i troškova hardvera specifični za implementaciju, brojni eksperimenti pokazuju da Titans omogućava razmjerno bolje perplexity vrijednosti i bolje generalizacijske sposobnosti kada se kontekst povećava. U konačnici, to znači da se mnogi realni scenariji, od pretraživanja znanstvenih radova do razumijevanja medicinskih izvještaja, mogu obuhvatiti na način koji prije nije bio moguć bez značajnijeg posla na infrastrukturi.

Temporalni kontekst i buduće perspektive

U viziji koja obuhvaća vremenski kontekst, Titans-ov dugoročni memorijski modul i MIRAS okvir omogućavaju modelima da se “prisjećaju” prošlih događaja i argumenata kroz vrijeme, što je ključno za razinu razonovanja koja nadilazi jednostavno slijediranje niza tokena. U budućnosti, ovakvi sustavi bi mogli biti integrirani s velikim bazama podataka, kao i sa sustavima za savjetovanje i asistenciju, gdje je pouzdano dohvaćanje informacija iz dugih dokumenata presudno. S obzirom na rastući interes za pouzdanost i razumljivost AI sustava, Titans i MIRAS nude snažan okvir za daljnja istraživanja i primjenu na stvarne izazove.

Zaključak

Iznenađujuće je koliko Titans i MIRAS mogu transformirati pristup dugom kontekstu. Kombinacija kratkotrajnog, preciznog mehanizma pažnje i dugoročnog, prilagodljivog memorijskog modula pruža pristup koji razbija tradicionalne granice transformatora s ograničenim kontekstom. U praksi to znači da tvrtke i istraživački timovi mogu razvijati napredne sustave koji dijelom pamte prošle razgovore, dokumente i iskustva, te uče iz njih bez značajnog povećanja troškova ili latencije. Dok se istraživanje nastavlja, Titans i MIRAS pružaju solidnu osnovu za daljnja rješenja koja su skalabilna, prilagodljiva i pouzdana u složenim zadacima s dugim kontekstima.

FAQ

Što je Titans?: Titans je arhitektura koja dodaje duboki neuronički modul dugoročne memorije uz postojeći Transformer- backbone. Pamćenje se uči tijekom testiranja i dizajnirano je da bude paralelizirano na akceleratorima, što omogućuje učinkovitije upravljanje dugim kontekstima.
Što je MIRAS?: MIRAS je okvir koji gleda na moderne sekvencijske modele kao na sustave za online optimizaciju nad asocijativnom memorijom. Pruža metodologiju za dinamičko i paralelno ažuriranje memorije kroz vrijeme, uz mogućnost integracije s Titans-om.
Kako Titans i MIRAS poboljšavaju performanse na dugom kontekstu?: Kroz kombinaciju kratkotrajnog, preciznog mehanizma pažnje i dugoročnog, prilagodljivog memorijskog modula, zajedno s online optimizacijom, modeli su sposobni zadržati i iskoristiti informacije iz ranijih dijelova teksta bez potrebe za nepreglednim povećanjem memorijskog prostora ili latencije.
Koje su prednosti za stvarne primjene?: Poboljšano razumsko povezivanje kroz dugačke dokumente, bolji dohvat informacija iz velikih korpusa, učinkovitije pretraživanje i sintetiziranje informacija, te općenito poboljšana robusnost i prilagodljivost sustava koji se susreću s dugotrajnim kontekstima.
Koji su izazovi i rizici?: Veća složenost implementacije i infrastrukturni zahtjevi, potreba za pažljivim dizajnom kako bi se spriječio memorijski drift, te upravljanje troškom i energijom prilikom treniranja i inferencije. Također je važno pratiti mogućnosti za zloupotrebu i osigurati transparentnost i sigurnost kronoloških veza memorije.
Gdje pronaći dodatne informacije?: Preporučuje se pogledati službene objave i radove Google Research o Titansu i MIRAS-u, uz relevantne primjere i benchmark-ove poput BABILong, C4, WikiText i HellaSwag kako biste vidjeli kontekst i rezultate u praksi.