Istraživanje Tehnologija Umjetna inteligencija

## Evo-Memory Benchmark i ReMem Okvir: Inovacije u Ponovnoj Upotrebi Iskustava za Agente Velikih Jezičnih Modela

03.12.2025.

193

Veliki jezični modeli (LLM) agenti počinju pohranjivati sve što vide, ali mogu li stvarno poboljšati svoje politike tijekom testiranja iz tih iskustava umjesto samo ponavljanja kontekstnih prozora? Istraživači s Univerziteta Illinois Urbana Champaign i Google DeepMinda predlažu Evo-Memory, streaming benchmark i agent okvir koji cilja na ovu točnu prazninu. Evo-Memory evaluira test-time učenje s self-evolving memorijom, pitajući se može li agenti akumulirati i ponovo koristiti strategije iz kontinuiranih tokova zadataka umjesto oslanjanja samo na statičke konverzacijske zapise.

### Konverzacijski Ponovni Poziv vs. Ponovna Upotreba Iskustava

Većina trenutnih agenata implementira konverzacijski ponovni poziv. Oni pohranjuju historiju dijaloga, tragove alata i povučene dokumente, koji se zatim ponovno integriraju u kontekstni prozor za buduća pitanja. Ovaj tip memorije služi kao pasivni buffer, sposoban za vraćanje činjenica ili sjećanje na prethodne korake, ali ne aktivno mijenja agentov pristup za povezane zadatke.

Evo-Memory, s druge strane, fokusira se na ponovnu upotrebu iskustava. Svaka interakcija se tretira kao iskustvo koje kodira ne samo ulaze i izlaze, već i uspješnost zadatka i učinkovitost strategija. Benchmark provjerava može li agenti povući ta iskustva u kasnijim zadacima, primijeniti ih kao ponovljive procedure i usavršiti memoriju vremenom.

### Dizajn Benchmarka i Tokovi Zadataka

Istraživački tim formalizira memoriju augmentiranog agenta kao tuple ((F, U, R, C)). Bazni model (F) generira izlaze. Modul za povlačenje (R) pretražuje memoriju. Kontekstni konstruktor (C) sintetizira radni prompt iz trenutnog ulaza i povučenih stavki. Funkcija za ažuriranje (U) piše nove ulaze iskustava i evoluira memoriju nakon svakog koraka.

Evo-Memory restrukturira konvencionalne benhmarkove u sekvencijalne tokove zadataka. Svaki dataset postaje uređena sekvenca zadataka gdje rani elementi nose strategije korisne za kasnije. Suite obuhvaća AIME 24, AIME 25, GPQA Diamond, MMLU-Pro ekonomiju, inženjering, filozofiju i ToolBench za upotrebu alata, zajedno s multi-turn okruženjima iz AgentBoarda uključujući AlfWorld, BabyAI, ScienceWorld, Jericho i PDDL planiranje.

Evaluacija se vrši duž četiri osi. Jednokorak zadaci koriste točnu podudarnost ili točnost odgovora. Tjelesna okruženja izvještavaju stopu uspjeha i stopu napretka. Korak učinkovitosti mjeri prosječan broj koraka po uspješnom zadatku. Sekvencijalna robustnost testira je li performansa stabilna kada se mijenja redoslijed zadataka.

### ExpRAG, Minimalna Bazna Linija za Ponovnu Upotrebu Iskustava

Da bi postavili donju granicu, istraživački tim definira ExpRAG. Svaka interakcija postaje struktuirani tekst iskustva s šablonom ⟨x_i,y_i^{^},f_i⟩ gdje x_i je ulaz, y_i^{^} je izlaz modela i f_i je povratna informacija, na primjer signal točnosti. Na novom koraku (t), agent povlači slična iskustva iz memorije koristeći sličnost i concatenates ih s trenutnim ulazom kao in-context primjerima. Zatim dodaje novo iskustvo u memoriju.

ExpRAG ne mijenja agentov kontrolni ciklus. To je još uvijek jedinstveni poziv na osnovu, ali sada augmentiran s eksplicitno pohranjenim prethodnim zadacima. Dizajn je namjerno jednostavan tako da bilo koji dobici na Evo-Memory mogu biti pripisani task level experience retrieval, a ne novim planiranjima ili apstrakcijama alata.

### ReMem, Action Think Memory Refine

Glavni doprinos na strani agenta je ReMem, action–think–memory refine pipeline izgrađen na istim osnovnim modelima. Na svakom unutarnjem koraku, uzimajući trenutni ulaz, stanje memorije i prethodne tragove razmišljanja, agent bira jednu od tri operacije:

– **Think** generira intermedijarne tragove razmišljanja koji dekomponiraju zadatak.
– **Act** emitira akciju okruženja ili konačni odgovor vidljiv korisniku.
– **Refine** vrši meta razmišljanje o memoriji povlačenjem, prunjenjem i reorganiziranjem ulaza iskustava.

Ovaj ciklus inducira Markovljev proces odlučivanja gdje stanje uključuje upit, trenutnu memoriju i trajanje misli. Unutar koraka agent može međusobno ispreplitati nekoliko Think i Refine operacija, a korak završava kada se emitira Act operacija. U suprotnosti sa standardnim ReAct stilom, ReMem omogućuje agentu da aktivno evoluira svoju memoriju kroz ponovnu upotrebu iskustava.

### Prednosti i Nedostaci Evo-Memory i ReMem

Evo-Memory i ReMem donose značajne prednosti u ponovnoj upotrebi iskustava za LLM agente. Evo-Memory omogućava agentima da akumuliraju i primjenjuju strategije iz kontinuiranih tokova zadataka, što poboljšava njihovu učinkovitost i adaptabilnost. ReMem, s druge strane, omogućava agentima da aktivno evoluiraju svoju memoriju kroz meta razmišljanje, što može dovesti do boljih performansi u složenim i dinamičnim okruženjima.

Međutim, postoje i neki nedostaci. Evo-Memory i ReMem zahtijevaju značajne resurse za pohranu i obradu iskustava, što može biti ograničavajuće za neke aplikacije. Također, agenti moraju biti dobro dizajnirani da bi mogli učinkovito koristiti pohranjena iskustva, što može zahtijevati dodatne resurse i vrijeme za razvoj.

### Budućnost Ponovne Upotrebe Iskustava

Budućnost ponovne upotrebe iskustava za LLM agente izgleda obezbedno. S razvojem novih tehnologija i algoritama, agenti će postati još učinkovitiji u akumuliranju i primjeni strategija iz iskustava. Ovo će omogućiti razvoj još inteligentnijih i adaptivnijih agenata koji će moći da rade u složenim i dinamičnim okruženjima.

### Najčešća Pitanja (FAQ)

1. **Šta je Evo-Memory?**
Evo-Memory je streaming benchmark i agent okvir koji cilja na evaluaciju test-time učenja s self-evolving memorijom za LLM agente.

2. **Šta je ReMem?**
ReMem je action–think–memory refine pipeline koji omogućava agentima da aktivno evoluiraju svoju memoriju kroz meta razmišljanje.

3. **Kako Evo-Memory i ReMem poboljšavaju performanse agenata?**
Evo-Memory omogućava agentima da akumuliraju i primjenjuju strategije iz kontinuiranih tokova zadataka, dok ReMem omogućava agentima da aktivno evoluiraju svoju memoriju kroz meta razmišljanje.

4. **Kako se Evo-Memory i ReMem razlikuju od konvencionalnih benhmarkova?**
Evo-Memory restrukturira konvencionalne benhmarkove u sekvencijalne tokove zadataka gdje rani elementi nose strategije korisne za kasnije.

5. **Kako se Evo-Memory i ReMem mogu primijeniti u praksi?**
Evo-Memory i ReMem mogu se primijeniti u različitim aplikacijama gdje je potrebno da agenti akumuliraju i primjenjuju strategije iz iskustava, kao što su virtualni asistenti, chatboti i autonomni sistemi.