Učenje razjašnjavanja: Višeokretni razgovori s akcijsko-baziranim…

01.02.2026.

192

U svijetu umjetne inteligencije, razumijevanje i generiranje prirodnih jezika postaju sve važniji. Veliki modeli jezika (LLM) optimizirani ljudskom povratnom informacijom brzo su postali vodeći paradigma za razvoj pametnih razgovaračkih agenata. Međutim, uprkos njihovoj jakoj performansi na mnogim benchmarkima, LLM-ovi mogu još uvijek imati problema s višekoraknim razgovornim vještinama kao što je razjašnjavanje – kada su suočeni s nejasnoćom, često previše pretpostavljaju ili implicitno pogodaju korisničke namjere umjesto da postave razjašnjavajuća pitanja. Visokokvalitetni razgovorni uzorci često su ograničeni, što predstavlja usku gredu za sposobnost LLM-ova da nauče optimalne dijalogičke akcije.

U ovom članku istražujemo Action-Based Contrastive Self-Training (ACT), quasi-online preferencijalni optimizacijski algoritam temeljen na Direct Preference Optimization (DPO), koji omogućuje podatkovno učinkovito učenje dijalogičke politike u modeliranju višekoraknih razgovora. Također ćemo predstaviti AmbigSQL, novi zadatak za razjašnjavanje informacijskih zahtjeva za generiranje složenog SQL koda, te proučiti sposobnost LLM-ova da funkcioniraju kao razgovarački agenti.

Uvod u Action-Based Contrastive Self-Training

Action-Based Contrastive Self-Training (ACT) je algoritam koji se temelji na Direct Preference Optimization (DPO) i omogućuje podatkovno učinkovito učenje dijalogičke politike u modeliranju višekoraknih razgovora. ACT se sastoji od dvije faze: akcijsko-bazirane kontrastne podatke za generiranje i kontrastno samoučenje.

Faza 1: Akcijsko-bazirano kontrastno generiranje podataka

Prva faza u izradi ACT-a uključuje izgradnju preferencijalnog skupa podataka, koji se sastoji od parova razgovornih odgovora gdje jedan podsjeća na pobjedničku akciju, a jedan na gubitničku. Počinjemo od početnog razgovornog skupa podataka. Za svaki korak u skupu podataka koristimo povijest razgovora kao dio ulaznog upita (npr. „Prikaži mi informacije…“ u nastavku) zajedno s bilo kojim potrebnim kontekstom specifičnim za zadatak (npr. SQL shemu baze podataka) i tretiramo taj korak kao pobjednički odgovor (npr. „Koji specifični…“, dolje). Pobjednički odgovor izražava akciju (ovdje „Razjasni“) i stoga sintetiziramo odbijeni odgovor koji predstavlja neku kontrarnu akciju (ovdje „Odgovori“) pomoću nekog uvjetnog generativnog modela. Rezultat ove faze je parni skup podataka gdje su svi odbijeni odgovori sintetski generirani.

Faza 2: Kontrastno samoučenje

Druga faza uključuje podešavanje modela politike pomoću DPO cilja. Možemo koristiti upite iz Faze 1, ali umjesto da izravno pokrenemo DPO koristeći prethodno konstruirane kontrastne parove, izvodimo on-policy učenje prema nekoliko intuicija: DPO-algoritmi rade optimizacijom log-verojatnosti dodijeljenih pobjedničkim i gubitničkim odgovorima. Po konstrukciji, on-policy uzorkovanje odgovora daje visoku verovatnoću tokena. Ovo dovodi do poboljšanja u modeliranju razgovora u odnosu na standardne pristupe podešavanja kao što je nadzirano finetuning i DPO.

Primjene i rezultati

ACT je pokazao znatna poboljšanja u modeliranju razgovora u odnosu na standardne pristupe podešavanja kao što su nadzirano finetuning i DPO. Razgovarački agent sposoban za razjašnjavanje mogao bi prepoznati kada postoji nejasnoća i postaviti razjašnjavajuće pitanje kako bi se dobio točniji konačni odgovor.

AmbigSQL: Novi zadatak za razjašnjavanje

Pored ACT-a, predstavili smo i AmbigSQL, novi zadatak za razjašnjavanje informacijskih zahtjeva za generiranje složenog SQL koda. AmbigSQL se fokusira na razvoj agenata za analizu podataka koji mogu razjašnjavati složene zahtjeve korisnika.

Evaluacija razgovornog razumijevanja

Također smo proučili sposobnost LLM-ova da funkcioniraju kao razgovarački agenti, ispitivajući njihovu sposobnost implicitnog prepoznavanja i razmišljanja o nejasnoćama u razgovoru. Rezultati pokazuju da LLM-ovi mogu biti učinkoviti razgovarački agenti, ali još uvijek imaju prostor za poboljšanje u razjašnjavanju.

Zaključak

Action-Based Contrastive Self-Training (ACT) predstavlja važan korak naprijed u podatkovno učinkovitom učenju dijalogičke politike u modeliranju višekoraknih razgovora. Kombinacija akcijsko-baziranog kontrastnog generiranja podataka i kontrastnog samoučenja omogućuje ACT-u da postigne znatna poboljšanja u modeliranju razgovora. Također, predstavljanje AmbigSQL kao novog zadatka za razjašnjavanje informacijskih zahtjeva otvara nove mogućnosti za razvoj agenata za analizu podataka.

Česta pitanja

Što je Action-Based Contrastive Self-Training (ACT)?

Action-Based Contrastive Self-Training (ACT) je algoritam temeljen na Direct Preference Optimization (DPO) koji omogućuje podatkovno učinkovito učenje dijalogičke politike u modeliranju višekoraknih razgovora.

Koji su primjeni ACT-a?

ACT je primjenjiv u razgovornim zadacima kao što su tabularno-osnovano pitanje-odgovaranje i čitanje razumijevanja mašina. Također se koristi za razjašnjavanje informacijskih zahtjeva za generiranje složenog SQL koda.

Koliko je učinkovit ACT?

ACT je pokazao znatna poboljšanja u modeliranju razgovora u odnosu na standardne pristupe podešavanja kao što su nadzirano finetuning i DPO.

Što je AmbigSQL?

AmbigSQL je novi zadatak za razjašnjavanje informacijskih zahtjeva za generiranje složenog SQL koda, fokusiran na razvoj agenata za analizu podataka.

Može li ACT biti primijenjen na druge zadatke?

ACT je dizajniran za višekorakne razgovorne zadatke, ali njegova osnovna ideja može biti primijenjena na druge zadatke koji zahtijevaju podatkovno učinkovito učenje dijalogičke politike.