Tehnologija Umjetna inteligencija Znanost

Razvijanje sposobnosti razjašnjavanja: Višekratni razgovori s akcijski orijentiranim kontrastivnim samoučenjem

30.11.2025.

194

U današnje vrijeme, veliki jezični modeli (LLM) koji su optimizirani putem ljudske povratne informacije postali su vodeći pristup u razvoju inteligentnih konverzacijskih agenata.

U današnje vrijeme, veliki jezični modeli (LLM) koji su optimizirani putem ljudske povratne informacije postali su vodeći pristup u razvoju inteligentnih konverzacijskih agenata. Iako ovi modeli postižu visoke rezultate na mnogim standardnim testovima, često im nedostaju vještine višekratnog razgovora, poput razjašnjavanja. Kada se suoče s nejasnoćama, često previše oprezno reagiraju ili implicitno pogađaju stvarne namjere korisnika umjesto da postavljaju razjašnjavajuća pitanja. Ovaj problem predstavlja značajnu prepreku za sposobnost LLM-a da uče optimalne dijaloške akcije.

U radu “Razvijanje sposobnosti razjašnjavanja: Višekratni razgovori s akcijski orijentiranim kontrastivnim samoučenjem” (predstavljenom na ICLR 2025), predlažemo akcijski orijentirano kontrastivno samoučenje (ACT), algoritam optimizacije preferencija koji omogućava učinkovito učenje dijaloške politike u modeliranju višekratnog razgovora. Ovaj pristup pokazuje svoju učinkovitost u scenarijima s ograničenim podacima koristeći razne stvarne konverzacijske zadatke, poput odgovaranja na pitanja temeljenih na tablicama i razumijevanja pročitanog teksta. Također uvodimo AmbigSQL, novi zadatak za razjašnjavanje informacija u zahtjevima za generiranje složenog SQL koda, što olakšava razvoj agenata za analizu podataka.

Osim toga, predlažemo evaluaciju sposobnosti LLM-a da funkcioniraju kao konverzacijski agenti ispitujući mogu li implicitno prepoznati i razmišljati o nejasnoćama u razgovoru. ACT pokazuje značajna poboljšanja u modeliranju razgovora u usporedbi s standardnim pristupima poput nadziranog fino podešavanja i DPO-a.

Razumijevanje akcijskog orijentiranog kontrastivnog samoučenja

Konvencionalni pristupi izgradnji konverzacijskih agenata obično se sastoje od dva osnovna dijela: modula za razumijevanje dijaloga i planiranje (npr. binarna predikcija za određivanje je li prikladno postaviti razjašnjavajuće pitanje) te modula za generiranje koji može izvršavati takve konverzacijske akcije (npr. oblikovanje razjašnjavajućeg pitanja ili pokušaja odgovora). Međutim, u modernom interakcijskom okviru, LLM-ovi se obično prilagođavaju za end-to-end korištenje u konverzacijskim aplikacijama bez međufaze planiranja. Predlažemo izravnu optimizaciju planiranja konverzacijskih akcija kao implicitnu podzadatak generiranja odgovora, što nazivamo implicitnim planiranjem akcija.

Faze treniranja LLM-a

Treniranje LLM-a za daljnju upotrebu sastoji se od tri faze:

Predtreniranje
Nadzorom fino podešavanje (SFT) za praćenje uputa
Podešavanje za usklađivanje s ljudskim preferencijama

Uobičajeni algoritam korišten za ovu posljednju fazu usklađivanja je DPO, algoritam kontrastivnog učenja koji optimizira vjerojatnosti dobitnih i gubitničkih sekvenci, poput konverzacijskih odgovora. Međutim, takvi algoritmi često nisu usklađeni s višekratnom prirodom razgovora. Predloženi ACT algoritam nastoji riješiti ove probleme.

Faza 1: Generiranje podataka temeljenih na akcijama

Prva faza izgradnje ACT-a uključuje konstrukciju skupa podataka preferencija, koji se sastoji od parova konverzacijskih odgovora gdje jedan predstavlja dobitnu akciju, a drugi gubitničku. Počinjemo s inicijalnim konverzacijskim skupom podataka. Za svaki korak u skupu podataka koristimo povijest razgovora kao dio ulaznog prompta, uz bilo koji potrebni kontekst specifičan za zadatak (npr. shemu SQL baze podataka) i tretiramo taj korak kao dobitni odgovor. Ovaj dobitni odgovor izražava akciju (npr. “Razjasni”), a zatim sintetiziramo odbijeni odgovor koji predstavlja suprotnu akciju (npr. “Odgovori”) koristeći neki model uvjetnog generiranja. Rezultat ove faze je skup podataka u paru gdje su svi odbijeni odgovori sintetički generirani.

Faza 2: Kontrastivno samoučenje

Druga faza uključuje podešavanje modela politike koristeći DPO cilj. Možemo koristiti promptove iz Faze 1, ali umjesto da izravno pokrećemo DPO koristeći prethodno konstruirane kontrastivne parove, provodimo učenje na osnovu politike prema nekoliko intuicija:

DPO slični algoritmi rade optimizirajući logaritamske vjerojatnosti dodijeljene dobitnim i gubitničkim odgovorima.
Na temelju konstrukcije, uzorkovanje odgovora na osnovi politike daje visoko vjerojatne sekvence tokena.
Poboljšanja u konverzaciji zahtijevaju višekratnu optimizaciju, što je teško izraziti koristeći samo parove kontrasta jednog koraka.

Umjesto izravnog pokretanja offline ažuriranja gradijenta koristeći fiksne kontrastivne parove, provodimo uzorkovanje na osnovi politike. Prvo utvrđujemo izražava li odgovor ispravnu akciju (npr. razjašnjavajuće pitanje), a ako jest, simuliramo rezultat putanje i procjenjujemo ishod prema namjeri traženja informacija danoj u izvornom razgovoru. Ovisno o tome je li ishod ispravan, zamjenjujemo ili dobitni ili gubitnički odgovor iz kontrastivnog para u Fazi 1 s simuliranom višekratnom putanjom.

Prednosti i nedostaci akcijski orijentiranog kontrastivnog samoučenja

ACT donosi nekoliko prednosti u odnosu na tradicionalne pristupe:

Povećana učinkovitost: Učenje iz ograničenih podataka omogućava brže i učinkovitije treniranje modela.
Poboljšana sposobnost razjašnjavanja: Modeli su sposobniji prepoznati nejasnoće i postaviti relevantna razjašnjavajuća pitanja.
Fleksibilnost: ACT se može prilagoditi različitim konverzacijskim zadacima i domenama.

Međutim, postoje i neki nedostaci:

Kompleksnost implementacije: Razvoj i implementacija ACT-a može biti složen proces.
Ovisnost o kvaliteti podataka: Kvaliteta generiranih podataka može utjecati na konačne rezultate modela.

Zaključak

Akcijski orijentirano kontrastivno samoučenje predstavlja inovativan pristup u razvoju konverzacijskih agenata koji su sposobni razjasniti nejasnoće i pružiti korisnicima točne informacije. Ovaj pristup ne samo da poboljšava performanse modela, već i omogućava bolje korisničko iskustvo. Kako se tehnologija razvija, očekuje se da će ovakvi modeli postati sve prisutniji u svakodnevnoj upotrebi, čime će se dodatno unaprijediti interakcija između ljudi i strojeva.

Najčešća pitanja (FAQ)

Što je akcijski orijentirano kontrastivno samoučenje?

Akcijski orijentirano kontrastivno samoučenje (ACT) je metoda koja omogućava učinkovito učenje dijaloške politike u višekratnom razgovoru koristeći podatke o preferencijama.

Kako ACT poboljšava konverzacijske agente?

ACT poboljšava konverzacijske agente omogućujući im da prepoznaju nejasnoće i postavljaju razjašnjavajuća pitanja, čime se povećava točnost njihovih odgovora.