Duboko u generaciju s dopunskim dohvaćanjem: Uloga dovoljnog konteksta

01.02.2026.

193

- Cyrus Rashtchian, voditelj istraživanja, i Da-Cheng Juan, voditelj softverskog inženjerstva, Google IstraživanjeUvodimo novi pojam dovoljnog konteksta kako bismo istražili sustave s dopunskim dohvaćanjem generacije (RAG), razvijajući metodu za klasifikaciju instanci, analizirajući neuspjehe RAG sustava i predlažući način smanjenja halucinacija.

14. svibnja 2025. – Cyrus Rashtchian, voditelj istraživanja, i Da-Cheng Juan, voditelj softverskog inženjerstva, Google Istraživanje

Uvodimo novi pojam dovoljnog konteksta kako bismo istražili sustave s dopunskim dohvaćanjem generacije (RAG), razvijajući metodu za klasifikaciju instanci, analizirajući neuspjehe RAG sustava i predlažući način smanjenja halucinacija.

Kratki linkovi

– Članak
– Podcast Illuminate
– ×

Sustav s dopunskim dohvaćanjem generacije (RAG) poboljšava velike modelove jezika (LLMs) pružajući im relevantan vanjski kontekst. Na primjer, kada se RAG sustav koristi za zadatak pitanja-odgovora (QA), LLM prima kontekst koji može biti kombinacija informacija iz više izvora, kao što su javne web-stranice, privatni dokumenti ili znanje grafa. Idealno, LLM ili proizvodi točan odgovor ili odgovara “Ne znam” ako nedostaje određena ključna informacija. Glavni izazov s RAG sustavima je da mogu zavesti korisnika lažnim (i stoga netačnim) informacijama. Drugi izazov je da većina prethodnih radova razmatra samo koliko je kontekst relevantan korisnikovom upitu. Mi vjerujemo da je kontekstova relevantnost sama pogrešna mjera – mi stvarno želimo znati je li pružio dovoljno informacija LLM-u da odgovori na pitanje ili ne. U članku “Dovoljan kontekst: Novi pogled na sustave s dopunskim dohvaćanjem generacije”, objavljenom na ICLR 2025, istražujemo ideju “dovoljnog konteksta” u RAG sustavima. Pokazali smo da je moguće znati kada LLM ima dovoljno informacija da bi dao točan odgovor na pitanje. Istražili smo ulogu koju kontekst (ili njegov nedostatak) igra u faktičnoj točnosti i razvili način kvantificiranja dovoljnog konteksta za LLMs. Naš pristup nam omogućuje istražiti čimbenike koji utječu na performanse RAG sustava i analizirati kada i zašto uspijevaju ili ne uspijevaju. Također smo koristili ove ideje za pokretanje LLM Re-Rankera u Vertex AI RAG Enginu. Naša značajka omogućuje korisnicima ponovo rangirati dohvaćene fragmente na temelju njihove relevantnosti upitu, što dovodi do boljih metrika dohvaćanja (npr. nDCG) i točnije RAG sustava.

Glavna konceptualna doprinos: Dovoljan kontekst

Definirajmo kontekst kao “dovoljan” ako sadrži sve potrebne informacije za davanje konačnog odgovora na upit i “nedovoljan” ako nedostaje potrebna informacija, je nepotpun, neodlučan ili sadrži proturječne informacije. Na primjer:

Ulazni upit: Greška koda za “Stranica nije pronađena” nazvana je po sobi 404, koja je čuvala centralnu bazu podataka poruka o greškama u kojoj slavnoj laboratoriju?

Dovoljan kontekst: Greška “Stranica nije pronađena”, često prikazana kao kod 404, nazvana je po sobi 404 u CERN-u, Evropskoj organizaciji za nuklearna istraživanja. To je bila soba gdje je bila čuvana centralna baza podataka poruka o greškama, uključujući onu za stranicu koja nije pronađena.

Nedovoljan kontekst: Greška 404, ili greška “Stranica nije pronađena”, ukazuje da web-server ne može pronaći traženu stranicu. To može nastati zbog raznih razloga, uključujući greške u URL-u, stranica premještena ili izbrisana, ili privremeni problemi s web-mjestom. Drugi kontekst je vrlo relevantan korisnikovom upitu, ali ne odgovara na pitanje, pa je stoga nedovoljan.

Razvijanje autoratera dovoljnog konteksta

S ovom definicijom, najprije smo razvili LLM-pokrećeni automatski ocjenjivač (“autorater”) koji procjenjuje parove upita-konteksta. Da bismo ocijenili autoratera, najprije su ljudski stručnjaci analizirali 115 primjera pitanja i konteksta kako bi odredili je li kontekst bio dovoljan da odgovori na pitanje. To je postala “zlatni standard” s kojim smo usporedili LLM-ove ocjene. Zatim smo LLM-u dali da ocijeni ista pitanja i kontekste, gdje izlazi ili “istina” za dovoljan kontekst ili “laž” za nedovoljan kontekst. Da bismo optimizirali modelovu sposobnost rješavanja ovog zadatka, također smo poboljšali upit s raznim strategijama upita, kao što su upit s lancem razmišljanja i pružanje 1-shot primjera. Zatim smo mjereni performanse klasifikacije na temelju koliko često su LLM-ove oznake istina/laž bile u skladu s oznakama zlatnog standarda. Naš automatski način ocjenjivanja (autorater) za dovoljan kontekst.

Koristimo upitani LLM da ocijeni primjere koji se sastoje od ulaznog upita i dohvaćenog konteksta. Model izlazi binarnu oznaku istina/laž koja predstavlja dovoljan ili nedovoljan kontekst. Koristeći naš optimizirani upit, pokazali smo da možemo klasificirati dovoljan kontekst s vrlo visokom točnošću (barem 93% puta). Također se ispostavilo da je najbolja metoda koju smo pokušali upitani Gemini 1.5 Pro, bez finog podešavanja. Kao bazeline, pokazali smo da je FLAMe (finotunirani PaLM 24B) malo lošiji od Geminija, ali bi mogao biti računalno efikasniji alternativni.

Analiza neuspjeha RAG sustava

Analizirali smo neuspjehe RAG sustava i identificirali ključne čimbenike koji utječu na njihovu performansu. Identificirali smo tri glavna razloga za neuspjehe:

1. Nedovoljan kontekst: Kada LLM ne prima dovoljan kontekst, ne može dati točan odgovor. Na primjer, ako korisnik postavi pitanje o specifičnoj informaciji koja nije uključena u dohvaćeni kontekst, LLM neće moći dati točan odgovor.
2. Netočan kontekst: Kada dohvaćeni kontekst sadrži netačne informacije, LLM će vjerovati da su te informacije točne i dati će netačan odgovor. Na primjer, ako dohvaćeni kontekst sadrži zastarjele informacije, LLM će vjerovati da su te informacije točne i dati će odgovor na temelju tih informacija.
3. Konfliktni kontekst: Kada dohvaćeni kontekst sadrži proturječne informacije, LLM neće moći dati točan odgovor. Na primjer, ako dohvaćeni kontekst sadrži informacije koje se protivreče jedna drugoj, LLM neće moći dati točan odgovor.

Smanjenje halucinacija u RAG sustavima

Halucinacije su problem koji se javlja kada LLM generira odgovor koji se čini točnim, ali je zapravo netačan. Halucinacije mogu nastati zbog nedovoljnog, netočnog ili konfliktnog konteksta. Da bismo smanjili halucinacije, moramo poboljšati kvalitet konteksta koji LLM prima. To možemo učiniti na nekoliko načina:

1. Poboljšanje kvaliteta dohvaćanja: Možemo poboljšati kvalitet dohvaćanja poboljšanjem algoritama dohvaćanja koji se koriste za dohvaćanje konteksta. Na primjer, možemo koristiti naprednije algoritme dohvaćanja kao što su BM25 ili DPR (Dense Passage Retrieval) koji su pokazali bolje performanse od tradicionalnih algoritama dohvaćanja.
2. Filtriranje konteksta: Možemo filtrirati dohvaćeni kontekst kako bismo uklonili netačne ili proturječne informacije. Na primjer, možemo koristiti heuristike ili mašinsko učenje za filtriranje konteksta.
3. Poboljšanje LLM-a: Možemo poboljšati LLM tako da ga treniramo na većoj količini podataka ili tako da ga finotuniramo na specifičnim zadacima. Na primjer, možemo finotunirati LLM na zadatku pitanja-odgovora kako bismo poboljšali njegovu sposobnost davanja točnih odgovora.

Zaključak

U ovom članku istražili smo ideju dovoljnog konteksta u RAG sustavima i pokazali smo da je moguće znati kada LLM ima dovoljno informacija da bi dao točan odgovor na pitanje. Također smo razvili LLM-pokrećeni automatski ocjenjivač koji može ocijeniti je li kontekst dovoljan za odgovor na pitanje. Analizirali smo neuspjehe RAG sustava i identificirali ključne čimbenike koji utječu na njihovu performansu. Također smo predložili načine smanjenja halucinacija u RAG sustavima. Mi vjerujemo da će istraživanje dovoljnog konteksta u RAG sustavima biti važno za buduće razvitke u području umjetne inteligencije.

Česta pitanja

1. Što je dovoljan kontekst u RAG sustavima?

Dovoljan kontekst u RAG sustavima je kontekst koji sadrži sve potrebne informacije za davanje konačnog odgovora na upit. Kontekst je nedovoljan ako nedostaje potrebna informacija, je nepotpun, neodlučan ili sadrži proturječne informacije.

2. Kako možemo poboljšati kvalitet dohvaćanja u RAG sustavima?

Možemo poboljšati kvalitet dohvaćanja u RAG sustavima poboljšanjem algoritama dohvaćanja koji se koriste za dohvaćanje konteksta. Također možemo filtrirati dohvaćeni kontekst kako bismo uklonili netačne ili proturječne informacije.

3. Kako možemo smanjiti halucinacije u RAG sustavima?

Halucinacije možemo smanjiti poboljšanjem kvaliteta konteksta koji LLM prima. To možemo učiniti poboljšanjem kvaliteta dohvaćanja, filtriranjem konteksta ili poboljšanjem LLM-a.