AfriMed-QA: Ocjenjivanje velikih modela jezika za globalno zdravstvo

01.02.2026.

192

godine, Mercy Asiedu, senior istraživačica u Googleu, predstavila je AfriMed-QA, skup kontekstualno relevantnih skupova podataka za ocjenjivanje velikih modela jezika (LLM) na zadacima odgovaranja na pitanja o zdravstvu u Africi.

U svibnju 2025. godine, Mercy Asiedu, senior istraživačica u Googleu, predstavila je AfriMed-QA, skup kontekstualno relevantnih skupova podataka za ocjenjivanje velikih modela jezika (LLM) na zadacima odgovaranja na pitanja o zdravstvu u Africi. Ovaj projekt je rezultat suradnje s organizacijama širom Afrike.

Uvod u AfriMed-QA

Veliki modeli jezika (LLM) pokazali su potencijal u odgovaranju na pitanja o medicini i zdravstvu, obuhvaćajući različite testove i izvore, kao što su pitanja s više izbora, kratki odgovori, sažimanje i bilježenje kliničkih bilješki. Posebno su korisni u niskoresursnim okruženjima, gdje mogu poslužiti kao alat za podršku u donošenju odluka, poboljšavajući preciznost kliničke dijagnoze i dostupnost, te pružajući multilingualnu podršku u donošenju odluka i obuku u zdravstvu, što je posebno vrijedno na razini zajednica.

Potreba za AfriMed-QA

Iako su modeli jezika uspješni na postojećim medicinskim benchmarkima, postoji neizvjesnost oko toga da li se generaliziraju na zadatke koji uključuju promjene u distribuciji bolesti, kontekstualne razlike u simptomima ili varijacije u jeziku i lingvistici, čak i unutar engleskog jezika. Također, lokalni kulturni konteksti i regijski medicinski znanja su važna za modele koji se koriste izvan tradicionalnih zapadnih okruženja. Bez raznovrsnih benchmark skupova podataka koji odražavaju raznolikost stvarnih konteksta, nemoguće je trenirati ili ocjenjivati modele u tim okruženjima, što ističe potrebu za još raznovrsnijim benchmark skupovima podataka.

Opis AfriMed-QA

AfriMed-QA je benchmark skup podataka za pitanja i odgovore koji spaja pitanja u stilu potrošača i ispite tipa medicinskog fakulteta iz 60 medicinskih škola u 16 afričkih zemalja. Skup podataka je razvijen u suradnji s brojnim partnerima, uključujući Intron Health, Sisonkebiotik, Sveučilište u Cape Coastu, Federaciju afričkih udruženja medicinskih studenata i BioRAMP, koji zajedno čine AfriMed-QA konsorcium, te s podrškom PATH/The Gates Foundation.

Evaluacija LLM odgovora

LLM odgovori su evaluirani na ovim skupovima podataka, usporedivši ih s odgovorima ljudskih stručnjaka i ocjenjujući ih prema ljudskoj preferenci. Metode korištene u ovom projektu mogu se skalirati na druge lokalitete gdje digitalizirani benchmarki trenutno nisu dostupni.

Nagrade i primjena

AfriMed-QA je objavljen na ACL 2025, gdje je osvojio nagradu za najbolju društvenu utjecajnu radu. Skup podataka je nedavno korišten za treniranje MedGemma, našeg najnovijeg otvorenog modela za multimodalno razumijevanje medicinskog teksta i slika. AfriMed-QA benchmark skupovi podataka i LLM evaluacijski kod su otvoreni i dostupni za zajednicu.

AfriMed-QA skup podataka

AfriMed-QA skup podataka je prvi velikomjerni pan-afrički multi-specialitetski skup podataka za pitanja i odgovore u medicini, dizajniran za ocjenjivanje i razvoj jednakih i učinkovitih LLM-a za afričko zdravstvo. Skup podataka obuhvaća oko 15.000 klinički raznovrsnih pitanja i odgovora na engleskom, više od 4.000 stručnih pitanja s više izbora (MCQ) s odgovorima, preko 1.200 otvorenih kratkih odgovora (SAQ) s dugim odgovorima, i 10.000 potrošačkih upita (CQ). Dizajniran je da strogo ocijeni LLM performanse za točnost i geografske pomake. Podaci su skupljeni od 621 suradnika iz više od 60 medicinskih škola u 12 zemalja, pokrivajući 32 medicinske specijalnosti, uključujući akusjerstvo i ginekologiju, neurokirurgiju, unutarnju medicinu, hitnu medicinu, medicinsku genetiku i zarazne bolesti.

Skupljanje podataka

Za skupljanje podataka, prilagodili smo web-platformu koju je ranije razvila Intron Health za skupljanje akcentiranih i multilingualnih kliničkih govora na velikoj skali u Africi. Razvili smo prilagođene korisničke sučelja za skupljanje svakog tipa pitanja, za pregled kvalitete i za slušaonost ljudske evaluacije LLM odgovora.

Kuracija skupa podataka i evaluacija LLM-a

MCQ i SAQ iz medicinskih škola imali su prateće ljudske oznake. Za CQ, kako bi se izbjeglo da potrošači dijele svoje zdravstvene informacije što bi moglo dovesti do potencijalnog otkrivanja zdravstvenih informacija, i ponavljanja tipova pitanja, potrošači su bili potaknuti scenarijem bolesti, a oni su odgovorili pitanjem koje bi postavili na temelju toga. Scenarij i pitanje su proslijeđeni LLM-u, a LLM odgovori su ocijenili ljudski klinički stručnjaci kao i potrošači.

Evaluacija LLM odgovora

Korištenjem kvantitativnih i kvalitativnih pristupa, evaluirali smo 30 generalnih i biomedicinskih LLM-a, koji su se kretao od malih do velikih. Neki su bili otvoreni, a drugi zatvoreni. Za MCQ i SAQ, LLM odgovori su usporedivani s ljudskim odgovorima, ocjenjivani su prema točnosti i LLM odgovori su ocijenjeni prema ljudskoj preferenci. Za CQ, LLM odgovori su ocijenjeni prema točnosti i relevantnosti.

Zaključak

AfriMed-QA predstavlja važan korak u razvoju jednakih i učinkovitih LLM-a za afričko zdravstvo. Njegovim korištenjem, modeli jezika mogu biti bolje prilagođeni lokalnim kontekstima i medicinskom znanju, poboljšavajući tako njihovu učinkovitost i pouzdanost u različitim afričkim okruženjima. Ovaj projekt ističe važnost raznolikosti i kontekstualnosti u razvoju i ocjenjivanju LLM-a, te nudi korisne resurse za daljnja istraživanja i primjene u medicini.

Česta pitanja

Koji su glavni ciljevi AfriMed-QA projekta?

Glavni ciljevi AfriMed-QA projekta su razvitak i ocjenjivanje velikih modela jezika (LLM) za pitanja i odgovore o zdravstvu u Africi, te poboljšanje njihove učinkovitosti i pouzdanosti u lokalnim kontekstima.

Koji su partneri uključeni u AfriMed-QA projekt?

AfriMed-QA projekt je rezultat suradnje s brojnim partnerima, uključujući Intron Health, Sisonkebiotik, Sveučilište u Cape Coastu, Federaciju afričkih udruženja medicinskih studenata i BioRAMP, te s podrškom PATH/The Gates Foundation.

Koliko podataka je skupljeno za AfriMed-QA?

AfriMed-QA skup podataka obuhvaća oko 15.000 klinički raznovrsnih pitanja i odgovora na engleskom, više od 4.000 stručnih pitanja s više izbora (MCQ) s odgovorima, preko 1.200 otvorenih kratkih odgovora (SAQ) s dugim odgovorima, i 10.000 potrošačkih upita (CQ).

Kako su podaci skupljeni za AfriMed-QA?

Podaci za AfriMed-QA su skupljeni od 621 suradnika iz više od 60 medicinskih škola u 12 zemalja, pokrivajući 32 medicinske specijalnosti. Korištena je web-platforma za skupljanje podataka, te su razvijena prilagođena korisnička sučelja za skupljanje svakog tipa pitanja, za pregled kvalitete i za slušaonost ljudske evaluacije LLM odgovora.

Kako su LLM odgovori evaluirani u AfriMed-QA?

LLM odgovori su evaluirani korištenjem kvantitativnih i kvalitativnih pristupa. Usporedili su se s ljudskim odgovorima, ocjenjivani su prema točnosti i LLM odgovori su ocijenjeni prema ljudskoj preferenci. Za potrošačke upite, LLM odgovori su ocijenjeni prema točnosti i relevantnosti.