Skalabilni okvir za ocjenjivanje jezikovnih modela zdravstvenog jezika

01.02.2026.

192

U svijetu umjetne inteligencije, posebno u području zdravstva, jezikovni modeli postaju sve važniji. Ovi modeli mogu analizirati i interpretirati složene podatke, pružajući korisne i personalizirane odgovore na temelju informacija o načinu života, biomarkera i konteksta. Međutim, ocjenjivanje ovih modela u složenim domenama kao što je zdravstvo može biti skupo i zahtjevno. U ovom članku predstavit ćemo skalabilni i precizan okvir za ocjenjivanje koji smanjuje vrijeme i povećava pouzdanost ocjenjivača u odnosu na postojeće protokole.

Uvod u jezikovne modele u zdravstvu

Jezikovni modeli, posebno veliki jezikovni modeli (LLM), postaju sve važniji u području zdravstva. Oni mogu generirati korisne i personalizirane odgovore na temelju specifičnih informacija o korisniku, uključujući način života, biomarkere i kontekst. Da bi se osigurala točnost, preciznost, relevantnost i sigurnost odgovora, potrebna je stroga i učinkovita metoda ocjenjivanja. Trenutne prakse ocjenjivanja teže na ljudske eksperte, što ih čini skupim, zahtjevnim i neskalabilnim. Zadaci koji zahtijevaju ljudsko suđenje često zahtijevaju pažljivo dizajniranje kako bi se izbjegli prijevari i niska konzistentnost među ocjenjivačima.

Predstavljanje skalabilnog okvira za ocjenjivanje

U radu “Skalabilni okvir za ocjenjivanje jezikovnih modela zdravstvenog jezika” predstavljamo okvir koji cilja na optimizaciju ljudskog i automatiziranog ocjenjivanja otvorenih pitanja. Naš metod identificira kritične praznine u odgovorima modela koristeći minimalni skup ciljanih pitanja rubrike koji raspoređuju složene, višestruke ocjene u granične ciljeve ocjenjivanja koji se mogu odgovoriti jednostavnim boolean odgovorima.

Adaptivne precizne boolean rubrike

Uvodimo Adaptivne Precizne Boolean rubrike kao paradigma za skalabilne ocjene zdravlja. Pretpostavili smo da mali skup graničnih, boolean (Da/Ne) kriterija poboljšava konzistentnost i učinkovitost u ocjenjivanju složenih upita. Postojeći rad je pokazao da “granularizacija” složenih kriterija ocjenjivanja u veći broj fokusiranih, boolean rubrika poboljšava pouzdanost ocjenjivača za zadatke općeg domena kao što su sažimanje i dijalog. Naš rad proširuje ove okvire primjenom na zdravstveni domen, uzimajući u obzir personalizaciju korisnika s zdravstvenim podacima u odgovorima LLM-a i ocjenama.

Validacija pristupa

Naš pristup validiramo u metaboličkom zdravlju, domenu koji obuhvaća dijabetes, kardiovaskularne bolesti i pretilost. Koristili smo skup reprezentativnih zdravstvenih upita i podataka s nosivih uređaja kako bismo konstruirali ulaze za jezikovni model, koji su zatim ocjenjeni pomoću našeg predloženog okvira rubrika za ocjenjivanje. U procesu dizajna Adaptivnih Preciznih Boolean rubrika, koristili smo iterativni proces za pretvaranje kriterija rubrika s visokom složenošću odgovora (npr. otvoreni tekst ili multi-point Likert skale) u granični skup kriterija rubrika s binarnim opcijama odgovora (tj. boolean “Da” ili “Ne”) – pristup koji nazivamo Precizne Boolean rubrike.

Dizajniranje Adaptivnih Preciznih Boolean rubrika

Cilj u razvoju Preciznih Boolean rubrika bio je poboljšati pouzdanost u zadacima anotiranja i generirati robustniji i djelotvorniji signal ocjenjivanja, time olakšavajući programsku interpretaciju i refino odgovora. Povećana graničnost u jednostavnom formatu Da/Ne smanjuje subjektivno tumačenje i potiče na konzistentnije ocjene, čak i s većim brojem ukupnih pitanja. Zbog granične prirode našeg dizajna rubrika, rezultirajuće Precizne Boolean rubrike sastojale su se od znatno većeg broja kriterija ocjenjivanja u odnosu na početne Likert-skale rubrike. Dok su auto-eval tehnike dobro opremljene za rukovanje povećanim volumenom kriterija ocjenjivanja, dovršetak predloženih Preciznih Boolean rubrika od strane ljudskih anotatora bio je previše resursno zahtjevan.

Mitigacija resursnog opterećenja

Da bismo mitigirali takvo opterećenje, refinarali smo Precizni Boolean pristup da dinamički filtriraju obimni skup pitanja rubrika, zadržavajući samo najrelevantnija kriterija, uslovljena specifičnim podacima koji se ocjenjuju. Ovaj podatkovno vođeni prilagođavanje, koje se naziva Adaptivna Precizna Boolean rubrika, omogućilo je smanjenje broja ocjena potrebnih za svaki LLM odgovor. To je zato što korisnički upiti i odgovori LLM-a često imaju fokusiranu tematsku usmjerenost, tako da se ocjenjivanje mora provesti samo protiv podskupa kriterija rubrika relevantnih za te teme.

Konverzija u Adaptivne Precizne Boolean rubrike

Da bismo pretvorili Precizne Boolean rubrike u Adaptivne Precizne Boolean rubrike, koristili smo Gemini kao nula-šot klasifikator pitanja rubrika. Ulaz u LLM uključuje korisnički upit, odgovor LLM-a pod ocjenom i određeno kriterij rubrike. LLM zatim izlazi da li je kriterij relevantan ili ne. Da bismo validirali ovaj adaptivni pristup, utemeljili smo skup podataka s pravom vrijednošću kroz anotacije klasifikacije pitanja rubrika koje su pružili tri medicinska eksperta, s većinskim glasovanjem koje je određeno konsenzusna anotacija.

Zaključak

U ovom članku predstavili smo skalabilni okvir za ocjenjivanje jezikovnih modela zdravstvenog jezika koji smanjuje vrijeme i povećava pouzdanost ocjenjivača. Naš metod identificira kritične praznine u odgovorima modela koristeći minimalni skup ciljanih pitanja rubrike koji raspoređuju složene, višestruke ocjene u granične ciljeve ocjenjivanja koji se mogu odgovoriti jednostavnim boolean odgovorima. Adaptivne Precizne Boolean rubrike poboljšavaju konzistentnost i učinkovitost u ocjenjivanju složenih upita, dok podatkovno vođeni pristup smanjuje broj ocjena potrebnih za svaki LLM odgovor.

Česta pitanja

Koji su prednosti korištenja velikih jezikovnih modela u zdravstvu?

Veliki jezikovni modeli pružaju korisne i personalizirane odgovore na temelju specifičnih informacija o korisniku, uključujući način života, biomarkere i kontekst. Oni mogu analizirati i interpretirati složene podatke, što ih čini vrijednim alatima u zdravstvu.

Zašto je ocjenjivanje jezikovnih modela u zdravstvu skupo i zahtjevno?

Trenutne prakse ocjenjivanja teže na ljudske eksperte, što ih čini skupim, zahtjevnim i neskalabilnim. Zadaci koji zahtijevaju ljudsko suđenje često zahtijevaju pažljivo dizajniranje kako bi se izbjegli prijevari i niska konzistentnost među ocjenjivačima.

Kako Adaptivne Precizne Boolean rubrike poboljšavaju konzistentnost u ocjenjivanju?

Adaptivne Precizne Boolean rubrike koriste granične, boolean (Da/Ne) kriterije koji poboljšavaju konzistentnost i učinkovitost u ocjenjivanju složenih upita. Povećana graničnost u jednostavnom formatu Da/Ne smanjuje subjektivno tumačenje i potiče na konzistentnije ocjene, čak i s većim brojem ukupnih pitanja.

Kako se Adaptivne Precizne Boolean rubrike prilagođavaju specifičnim podacima?

Adaptivne Precizne Boolean rubrike koriste podatkovno vođeni pristup koji dinamički filtrira obimni skup pitanja rubrika, zadržavajući samo najrelevantnija kriterija, uslovljena specifičnim podacima koji se ocjenjuju. Ovaj pristup smanjuje broj ocjena potrebnih za svaki LLM odgovor.

Kako se validira adaptivni pristup?

Adaptivni pristup validira se kroz anotacije klasifikacije pitanja rubrika koje su pružili tri medicinska eksperta, s većinskim glasovanjem koje je određeno konsenzusna anotacija. Ovaj postupak osigurava da su ocjene pouzdane i relevantne.