TehnologijaZnanost

Poboljšanje točnosti velikih jezičnih modela korištenjem svih njihovih slojeva

U posljednjih nekoliko godina, veliki jezični modeli (LLM) postigli su značajne napretke, no i dalje se suočavaju s problemima vezanim uz točnost informacija.

U posljednjih nekoliko godina, veliki jezični modeli (LLM) postigli su značajne napretke, no i dalje se suočavaju s problemima vezanim uz točnost informacija. Ova pojava, poznata kao “halucinacija”, javlja se kada modeli daju netočne tvrdnje s visokom razinom samopouzdanja. Razlozi za to uključuju nepotpune, netočne ili pristrane podatke za obuku, kao i probleme poput “prekomjernog prilagođavanja” ili “nedovoljnog prilagođavanja”. Ovi faktori značajno utječu na pouzdanost i vjerodostojnost LLM-a u praktičnim primjenama.

Nasuprot tome, “faktualnost” se odnosi na sposobnost LLM-a da generira sadržaj koji je u skladu s realnim znanjem. Uobičajeni pristup poboljšanju faktualnosti uključuje korištenje vanjskih podataka, no to zahtijeva složenije sustave za identifikaciju i preuzimanje relevantnih informacija, a čak ni tada LLM-i nisu imuni na halucinacije.

Jedan od potencijalnih ciljeva za smanjenje halucinacija je proces dekodiranja, koji predstavlja završni korak u generiranju teksta od strane LLM-a. U ovom trenutku, model pretvara unutarnje reprezentacije svojih predikcija u stvarni tekst koji je razumljiv ljudima. Postoje mnogi poznati poboljšanja u procesu dekodiranja, kao što je “spekulativno dekodiranje”, koje poboljšava brzinu generiranja teksta. Slično tome, moguće je primijeniti metodu “dekodiranja faktualnosti” koja bi uhvatila i ispravila halucinacije u završnim fazama generacije.

U radu “Self Logits Evolution Decoding” (SLED), predstavljenom na NeurIPS 2024, uvedena je nova metoda dekodiranja koja usklađuje izlaze LLM-a s faktualnim znanjem. SLED mijenja način na koji LLM generira tekst, koristeći sve slojeve modela, a ne samo posljednji sloj, kako bi bolje uskladio izlaz modela s realnim činjenicama. Važno je napomenuti da SLED ne zahtijeva vanjsku bazu znanja ili dodatno prilagođavanje podataka. Proveli smo opsežna istraživanja na različitim LLM-ima, s različitim konfiguracijama i razmjerima. Rezultati su pokazali da SLED dosljedno poboljšava faktualnu točnost na raznim zadacima i benchmarkovima, uključujući višekratne izbore, otvorenu generaciju i zadatke razmišljanja.

Kako SLED funkcionira? LLM-ovi razdvajaju rečenice na manje jedinice koje nazivamo “tokeni”, a to mogu biti pojedinačne riječi, dijelovi riječi ili čak interpunkcijski znakovi. Kada LLM generira tekst, to čini jedan token po jedan. U svakom koraku, LLM ne bira samo najvjerojatniji token. Umjesto toga, izračunava vjerojatnost svakog mogućeg tokena koji dolazi sljedeći. Ovaj skup vjerojatnosti poznat je kao “distribucija”.

LLM-ovi obrađuju tekst kroz više slojeva, generirajući “logite” (ocjene predikcija) na svakom sloju, pri čemu logiti posljednjeg sloja obično određuju izlaz. “Rani izlaz” logiti iz međuslojeva nude dodatne informacije, no standardni LLM-ovi često se oslanjaju isključivo na posljednji sloj, što može dovesti do netočnih, ali “popularnih” odgovora zbog propuštenih kontekstualnih naznaka.

SLED poboljšava ovu situaciju korištenjem informacija iz svi slojeva LLM-a, a ne samo iz posljednjeg. To čini ponovnim korištenjem konačne projekcijske matrice u Transformer arhitekturi na logitima ranih izlaza kako bi stvorio vjerojatnosne distribucije nad istim skupom mogućih tokena koje koristi posljednji sloj. To znači da SLED dobiva više procjena onoga što bi sljedeći token trebao biti, jednu iz svakog sloja. Uzima ponderirani prosjek distribucija iz svih slojeva, dajući veću važnost nekim slojevima od drugih. Na taj način, SLED usavršava predikcije LLM-a uključivanjem informacija iz različitih faza obrade.

Na primjer, kada LLM-u postavimo pitanje “Koji je glavni grad Britanske Kolumbije?”, SLED dodjeljuje veću vjerojatnost točnom odgovoru “Victoria” i manju vjerojatnost popularnom odgovoru “Vancouver”.


Ilustrativni primjer

Kako bi se prikazalo kako SLED poboljšava izlazne logite i ispravlja greške, razmotrite matematički problem koji zahtijeva više koraka za dolazak do točnog rješenja. Zadatak je da LLM pročita matematički problem i zapiše izračune kako bi došao do točnog odgovora. U ovom slučaju, LLM-u je predstavljen jednostavan problem: “Ash ide u trgovinu i kupuje 6 igračaka. Svaka igračka košta 10 tokena. Kupnja četiri ili više igračaka donosi 10% popusta. Koliko Ash plaća?” U tipičnom LLM-u, kada izračunava trošak šest igračaka po 10 tokena, model bi mogao netočno predvidjeti “6 x 10 = 60” kao ukupni trošak. Međutim, model bi trebao uključiti 10% popusta, koji se aktivira jer Ash kupuje najmanje četiri igračke.

Greška koju tipični LLM čini vjerojatno proizlazi iz uobičajenog aritmetičkog obrasca A x B = C viđenog u podacima za obuku. Model dodjeljuje visoku vjerojatnost “=”, nakon što predvidi “A x B” u ovom slučaju. Međutim, ovaj izračun propušta 10% popusta (što zahtijeva predikciju “x” umjesto “=” nakon “6 x 10”). SLED intervenira koristeći informacije iz svih slojeva, a ne samo iz posljednjeg. Analizirajući “rane izlaze” logita, primjećujemo da značajan broj međuslojeva zapravo predviđa “x” umjesto “=” nakon 6 x 10.


Zaključak

Uvođenjem SLED-a, istraživači su otvorili nove mogućnosti za poboljšanje točnosti velikih jezičnih modela. Ova metoda omogućava modelima da bolje koriste svoje unutarnje slojeve, čime se smanjuje rizik od halucinacija i povećava faktualnost generiranih informacija. S obzirom na sve veći značaj LLM-a u različitim industrijama, ovakva poboljšanja mogu imati dalekosežne posljedice na način na koji koristimo umjetnu inteligenciju u svakodnevnom životu.


Najčešća pitanja (FAQ)

Što su veliki jezični modeli (LLM)?

Veliki jezični modeli su napredni algoritmi umjetne inteligencije koji koriste duboko učenje za generiranje i razumijevanje ljudskog jezika.

Kako SLED poboljšava točnost LLM-a?

SLED koristi informacije iz svih slojeva LLM-a, a ne samo iz posljednjeg, čime se poboljšava usklađenost s faktualnim znanjem i smanjuje rizik od halucinacija.

Koji su izazovi s kojima se LLM-ovi suočavaju?

Glavni izazovi uključuju halucinacije, netočnosti u generiranim informacijama i ovisnost o kvaliteti podataka za obuku.

Može li SLED raditi s drugim metodama dekodiranja?

Da, SLED se može fleksibilno integrirati s drugim metodama dekodiranja faktualnosti kako bi dodatno smanjio halucinacije modela.

Kako se LLM-ovi koriste u praksi?

LLM-ovi se koriste u raznim aplikacijama, uključujući chatbote, generiranje sadržaja, prevođenje jezika i analizu podataka.

Povezano

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)