Računarstvo Tehnologija Umjetna inteligencija

Appleova CLaRa: Revolucionarni pristup RAG sistemima s kompresijom dokumenata

06.12.2025.

196

Prazan redU svijetu umjetne inteligencije, RAG (Retrieval-Augmented Generation) sustavi postaju sve važniji, omogućujući AI modelima da generiraju preciznije i informativnije odgovore. Međutim, tradicionalni RAG sustavi često se suočavaju s problemima poput preopterećenosti kontekstnog prozora i neoptimiziranih pojedinačno, što može dovesti do smanjene učinkovitosti i potencijalnih pogrešaka.

Prazan red

U svijetu umjetne inteligencije, RAG (Retrieval-Augmented Generation) sustavi postaju sve važniji, omogućujući AI modelima da generiraju preciznije i informativnije odgovore. Međutim, tradicionalni RAG sustavi često se suočavaju s problemima poput preopterećenosti kontekstnog prozora i neoptimiziranih pojedinačno, što može dovesti do smanjene učinkovitosti i potencijalnih pogrešaka. Appleova istraživačka grupa i tim iz Sveučilišta Edina predstavili su CLaRa (Continuous Latent Reasoning) – inovativni framework koji rješava ove probleme kroz kontinuiranu kompresiju dokumenata i zajednički latentni prostor za pretraživanje i generiranje. CLaRa, u svojim varijantama CLaRa-7B-Base, CLaRa-7B-Instruct i CLaRa-7B-E2E, predstavlja značajan korak naprijed u tehnologiji RAG, smanjujući potrebu za velikim kontekstnim prozorima i poboljšavajući učinkovitost i točnost. Ovaj članak detaljno istražuje CLaRu, njegov rad, prednosti i potencijalne primjene, te analizira kako ova tehnologija mijenja budućnost AI sustava.

Kako CLaRa poboljšava RAG sustave?

Tradicionalni RAG sustavi rade s dva odvojenih dijela: sustav za pretraživanje (retriever) koji traži relevantne informacije iz velikog korpus dokumenta, i sustav za generiranje (generator) koji koristi te informacije za stvaranje odgovora. Problem je u tome što oba sustava često rade nezavisno, a veliki kontekstni prozori mogu biti skupi i neefikasni. CLaRa mijenja ovu paradigmu integrirajući kompresiju dokumenata u sam proces pretraživanja i generiranja. Kroz kontinuiranu kompresiju, CLaRa smanjuje količinu podataka koju sustav mora obraditi, izbjegavajući redundantno kodiranje i omogućujući generatoru da “uči” koje informacije su za određeni upit najvažnije. U suštini, CLaRa uči sustav za pretraživanje da identificira ključne informacije, a generator da ih koristi za stvaranje preciznog odgovora.

Od sirovih dokumenata do kontinuiranih memorijskih tokena

CLaRa započinje procesom Semantic Compressor Pretraining (SCP). Ovo je ključni korak u kojem se svaki dokument komprimira u niz malih, naučenih memorijskih tokena. Za ovaj proces koristi se model Mistral 7B s LoRA adapterima, koji se rotiraju između uloga kompresora i generatora. Konačni stanovi skrivenih slojeva memorijskih tokena postaju komprimirana reprezentacija dokumenta.

SCP se trenira na velikom skupu podataka – oko 2 milijuna pasusa iz Wikipedije 2021. Za svaki pasus generiraju se dva tipa pitanja:

Jednostavna pitanja: Pokrivaju atomsku činjenicu.
Kompleksna pitanja: Spajaju više činjenica u jedan upit, čime se potiče višestepeno razmišljanje.
Paraphrases: Preuređuju i komprimiraju tekst, čuvajući semantičku istinitost.

Proces treninga uključuje verifikacijsku petlju koja provjerava dosljednost i pokrivenost činjenica. Ako je potrebno, sustav generira nove pitanja ili parafraze, pokušavajući doći do prihvatljivog rezultata u do 10 iteracija.

Trenutak je ključan: koriste se dva različita gubitka. Cross-entropy loss trenira generator da odgovara na pitanja ili generira parafraze, koristeći samo memorijske tokene i instrukcijski prefiks. Mean Squared Error (MSE) loss usklađuje prosječni skovani sloj tokena dokumenta s prosječnim skovanim slojem memorijskih tokena. MSE gubitak donosi modestne, ali konzistentne poboljšanja od 0.3 do 0.6 F1 bodova pri kompresijskim omjerima od 32 i 128, čuvajući komprimirane i originalne reprezentacije u istom semantičkom području.

Zajedničko pretraživanje i generiranje u dijeljenoj prostoriji

Nakon offline kompresije, svaki dokument se predstavlja samo pomoću memorijskih tokena. CLaRa zatim trenira query reasoner i answer generator na temelju istog glavnog modela. Query reasoner je LoRA adapter koji mapira ulazni upit u isti broj memorijskih tokena koji se koriste za dokumente. Pretraživanje postaje čist proces pretraživanja po embeddingu. Sustav izračunava kosinusnu sličnost između upitnog embeddinga i svakog kandidatnog embeddinga dokumenta.

Najbolji komprimirani embeddingi dokumenta se spajaju s tokenima upita i daju se generatoru. Trenutak se zasniva samo na standardnoj gubitku predviđanja sljedećeg tokena na kraju odgovora. Ne postoje eksplicitne oznake relevantnosti. Ključni trik je diferencijalni top-k selector implementiran s Straight Through estimatorom. Tijekom prednjeg prolaza model koristi hard top-k selekciju. Tijekom nazadnog prolaza softmax distribucija nad bodovima dokumenata omogućuje protok gradijenata iz generatora u parametre query reasonera.

Analiza gradijenata pokazuje dva zanimljiva efekta. Prvi je da se retriever potiče da dodijeli veći vjerojatnost dokumentima koji povećavaju vjerojatnost odgovora. Drugi je da, jer pretraživanje i generiranje dijele istu komprimiranu reprezentaciju, gradijenti generatora oblikuju latentni prostor dokumenata kako bi ga učinili lakšim za razmišljanje. Logit lens analiza upitnih embeddinga otkriva tematske tokene poput “NFL” i “Oklahoma” za upit o zetivu Ivory Lee Browna, čak i ako ti tokenni nisu u originalnom upitu, već su prisutni u podržavajućim člancima.

Statistika: Trenutni trend u AI pokazuje rast interes za RAG sustave, s procjenama da će tržište RAG rasti s 2.8 milijardi dolara 2023. godine na 13.4 milijardi dolara do 2028. godine. CLaRa se pozicionira kao ključni faktor u ovom rastu, nudeći učinkovitiju i precizniju alternativu tradicionalnim RAG sustavima.

Pros & Cons CLaRa-e

Pros:

Smanjena potrošnja resursa: Kompresija dokumenata smanjuje potrebu za velikim kontekstnim prozorima, čime se smanjuje potrošnja memorije i izračunskih resursa.
Poboljšana učinkovitost: Brže pretraživanje i generiranje, zahvaljujući komprimiranom reprezentacijama.
Poboljšana točnost: Generator se uči da identificira relevantne informacije, što dovodi do preciznijih odgovora.
Razumijevanje složenih pitanja: Višestepeno razmišljanje podržano kompleksnim pitanjima tijekom treninga.

Cons:

Kompleksnost implementacije: Implementacija CLaRa-e zahtijeva razumijevanje i integraciju različitih tehnika, uključujući kompresiju dokumenata, embeddinge i LoRA adaptere.
Zavisnost od kvalitete podataka: Kvaliteta podataka za trening SCP-e (Semantic Compressor Pretraining) je ključna za učinkovitost CLaRa-e.
Potencijalna gubitak informacija: Kompresija dokumenata može dovesti do gubitka nekih informacija, iako CLaRa mitigira ovaj rizik optimizacijom i usklađivanjem latentnog prostora.

Zaključak

Appleova CLaRa predstavlja značajan napredak u tehnologiji RAG sustava. Kroz kontinuiranu kompresiju dokumenata i zajednički latentni prostor, CLaRa rješava ključne probleme tradicionalnih RAG sustava, smanjujući potrošnju resursa, poboljšavajući učinkovitost i povećavajući točnost. Ova tehnologija ima potencijal da revolucionira način na koji AI sustavi pristupaju i koriste informacije, otvarajući nove mogućnosti za širok raspon primjena. Budućnost RAG sustava izgleda obećavajuće, a CLaRa je sigurno jedan od ključnih igrača u ovom rastućem području.

Česte Pitanja (FAQ)

Pitanje: Što je RAG sustav?

Odgovor: RAG (Retrieval-Augmented Generation) sustav kombinira snagu generativnih modela (kao što su GPT-3) s mogućnošću pretraživanja relevantnih informacija iz velikog korpusa podataka. U suštini, sustav prvo traži relevantne informacije, a zatim ih koristi za generiranje odgovora.

Pitanje: Zašto su RAG sustavi važni?

Odgovor: RAG sustavi su važni jer omogućuju AI modelima da generiraju preciznije, informativnije i relevantnije odgovore. Bez RAG sustava, AI modeli bi bili ograničeni na informacije koje su pohranjene u njihovoj internom memoriji, što bi moglo dovesti do pogrešaka i nepreciznosti.

Pitanje: Što je LoRA adapter?

Odgovor: LoRA (Low-Rank Adaptation) je tehnika za finog podešavanja velikih jezičnih modela. Umjesto da se cijeli model mijenja, LoRA dodaje mali skup novih parametara koji se treniraju za specifičan zadatak. Ovo smanjuje potrebu za velikim količinama podataka i izračunskih resursa.

Pitanje: Kako CLaRa komprimira dokumente?

Odgovor: CLaRa koristi Semantic Compressor Pretraining (SCP). SCP trenira model da pretvara dokumente u niz malih, naučenih memorijskih tokena. Ovi tokeni predstavljaju komprimiranu reprezentaciju dokumenta, smanjujući količinu podataka koju sustav mora obraditi.

Pitanje: Što je Straight Through Estimator?

Odgovor: Straight Through Estimator (STE) je tehnika za implementaciju diferencijalnog backpropagation kroz non-diferencijalne operacije. U kontekstu CLaRa-e, STE omogućava protok gradijenata iz generatora u query reasoner, čak i kada su korišteni hard top-k selektori.

Pitanje: Jesu li CLaRa sustavi primjenjivi u svim industrijama?

Odgovor: Da, CLaRa sustavi su primjenjivi u širokom rasponu industrija, uključujući:

Chatbotovi i virtualni asistenti: Poboljšana točnost i relevantnost odgovora.
Pretraga informacija: Preciznije rezultate pretrage.
Analiza dokumenata: Brže i učinkovitije pretraživanje i izvještavanje.
Sadržaj za marketing: Generiranje personaliziranog sadržaja.

Ovaj članak pruža sveobuhvatan pregled CLaRa-e, ističući njegovu inovativnu tehnologiju, potencijalne prednosti i buduće smjernice. Kao ekspert za SEO i AI, nastavljam istraživati i dijeliti najnovije trendove u ovom dinamičnom polju.