Benchmarking LLMs za globalno zdravstvo

01.02.2026.

195

U svijetu umjetne inteligencije, velika jeznička modela (LLMs) postaju sve važniji alat u zdravstvu, posebno u odgovaranju na pitanja vezana za medicinu i zdravstvo. Ovi modeli pokazuju potencijal u različitim medicinskim testovima i formatima, a njihova primjena se proširuje kroz različite izvore. Naš tim na Google Researchu bio je na vrsnom mjestu u proširenju korisnosti LLMs za medicinske primjene, što je demonstrirano kroz naše radove na Med-Gemini, MedPaLM, AMIE, Multimodal Medical AI, te kroz objavljivanje novih alata i metoda za procjenu performansi modela u različitim kontekstima.

Iako su LLMs uspješni na postojećim medicinskim benchmarkima, postoji još neizvjesnosti oko toga kako dobro se generaliziraju na zadatke koji uključuju promjene u distribuciji bolesti, regijsko medicinsko znanje i kontekstualne varijacije u simptomima, jeziku, lokaciji, lingvističkoj raznolikosti i lokalnim kulturnim kontekstima. Tropične i zarazne bolesti (TRINDs) su primjer takve bolesti koja je izvan distribucije. Ove bolesti su vrlo česte u najsiromašnijim regijama svijeta, pogađajući 1,7 milijardi ljudi globalno, s neproporcionalnim učincima na žene i djecu. Iako LLMs za pitanja vezana za zdravlje mogu omogućiti rano prepoznavanje i nadzor na temelju simptoma, lokacije i rizičnih faktora, samo je malo studija proučavalo performanse LLMs na TRINDsima s ograničenim skupovima podataka za rigorno procjenjivanje LLMs.

Da bi popunili tu prazninu, razvili smo sintetičke osobe – to jest, skupove podataka koji predstavljaju profile, scenarije itd. koji se mogu koristiti za procjenu i optimizaciju modela – te benchmark metode za bolesti izvan distribucije. Stvorili smo TRINDs skup podataka koji sadrži 11.000+ ručno i LLM-generiranih sintetičkih osoba koje predstavljaju širok raspon tropičnih i zaraznih bolesti kroz demografske, kontekstualne, lokacijske, jezikovne, kliničke i potrošačke dodatke. Dio ovog rada nedavno je predstavljen na radionicama NeurIPS 2024 o Generativnoj AI za zdravstvo i napredcima u medicinskim osnovnim modelima.

Razvoj i benchmarking TRINDs skupa podataka

Stvaranje sintetičkih TRINDs osoba za procjenu LLMs

Istražili smo autoritativne izvore, uključujući WHO, PAHO i CDC, koji objavljuju činjenične informacije o različitim bolestima, i koristili smo ono što smo naučili da bismo stvorili početni skup šablona pacijentskih osoba za svaku bolest. Ove osobe uključuju opće simptome, direktne atribute i specifične simptome. Također uključuju kontekst, način života i rizične faktore koji su pregledali klinici da bi potvrdili točnost i kliničku relevantnost formatiranja za osobe. Ovi originalni šabloni osoba trenutno pokrivaju 50 bolesti.

Gradivni blokovi za TRINDs skup podataka

Koristimo LLM prompting da bismo proširili početni skup sintetičkih osoba da uključuje demografske i semantičke kliničke i potrošačke dodatke (vidi dolje), rezultirajući ukupno 11.000+ osoba. Također smo ručno preveli početni skup na francuski kako bismo omogućili procjenu utjecaja promjena u distribuciji jezika na performanse modela. Zatim smo razvili LLM-based autorater koji ocjenjuje odgovor kao točan ako je istinitost i dijagnostički predviđanje isti ili znatno slični.

Evaluacija

Procjena performansi LLMs na TRINDs vs USMLE

Evaluirali smo točnost Gemini modela (Gemini 1.5) u identifikaciji bolesti iz opisa osoba. Demonstrirali smo da postoje promjene u distribuciji performansi modela na ovom skupu podataka u usporedbi s USMLE-based benchmark skupovima podataka, s nižom performansom na TRINDs skupu u usporedbi s izvješćenom performansom na US skupovima podataka.

Relevancija konteksta

Sistematski smo izvršili evaluacije s skupom podataka da bismo razumjeli utjecaj različitih konteksta, vrsta (klinički vs. potrošački), demografija (dob, rasa, spol) i semantičkih stilova. Razmatrali smo kako kombinacije simptoma, rizičnih faktora, lokacije i demografije utječu na točnost LLMs-a za preciznu dijagnozu na temelju punog ili djelomičnog konteksta. Evaluacije pokazuju da uključivanje lokacije i rizičnih faktora u kombinaciji s specifičnim i općim simptomima rezultira najvišom performansom, sugerirajući da simptomi u kombinaciji s lokacijom i rizičnim faktorima daju najtočniju dijagnozu.

Zaključak

U ovom radu predstavili smo TRINDs skup podataka i benchmark metode za procjenu performansi LLMs na bolestima izvan distribucije. Naš rad pokazuje da postoje promjene u distribuciji performansi modela na ovom skupu podataka u usporedbi s postojećim benchmarkima, s nižom performansom na TRINDs skupu. Također smo pokazali da kontekst, demografija i semantički stilovi igraju ključnu ulogu u performansama LLMs. Naš rad pruža važna uvida u to kako LLMs mogu biti optimizirani za bolestima izvan distribucije i potencijalno poboljšati zdravstvene usluge u najsiromašnijim regijama svijeta.

Česta pitanja

Koji su glavni izazovi u primjeni LLMs za TRINDs?

Glavni izazovi uključuju ograničenja u nadzoru, ranom otkrivanju, točnoj početnoj dijagnozi, upravljanju i vakcinama. Također, postoji ograničen broj studija i podataka za rigorno procjenjivanje performansi LLMs na TRINDsima.

Kako je TRINDs skup podataka stvoren?

TRINDs skup podataka stvoren je na temelju sintetičkih osoba koje predstavljaju profile, scenarije itd. Koristili smo LLM prompting i ručni prijevod na francuski. Također smo razvili LLM-based autorater za ocjenjivanje točnosti dijagnoze.

Koji su rezultati evaluacije LLMs na TRINDs skupu podataka?

Evaluacije su pokazale nižu performansu LLMs na TRINDs skupu podataka u usporedbi s USMLE-based benchmarkima. Također, kontekst, demografija i semantički stilovi su pokazali ključnu ulogu u performansama LLMs.

Kako LLMs mogu poboljšati zdravstvene usluge u najsiromašnijim regijama?

LLMs mogu omogućiti rano prepoznavanje i nadzor na temelju simptoma, lokacije i rizičnih faktora. Također, mogu poboljšati kliničku dijagnostičku točnost, dostupnost i multilingualnu kliničku podršku, posebno na razini zajednice.