U svibnju 2025. godine, Mercy Asiedu, senior istraživačica u Googleu, predstavila je AfriMed-QA, skup kontekstualno relevantnih skupova podataka za ocjenjivanje velikih modela jezika (LLM) na zadacima odgovaranja na pitanja o zdravstvu u Africi. Ovaj projekt je rezultat suradnje s organizacijama širom Afrike.
Uvod u AfriMed-QA
Veliki modeli jezika (LLM) pokazali su potencijal u odgovaranju na pitanja o medicini i zdravstvu, obuhvaćajući različite testove i izvore, kao što su pitanja s više izbora, kratki odgovori, sažimanje i bilježenje kliničkih bilješki. Posebno su korisni u niskoresursnim okruženjima, gdje mogu poslužiti kao alat za podršku u donošenju odluka, poboljšavajući preciznost kliničke dijagnoze i dostupnost, te pružajući multilingualnu podršku u donošenju odluka i obuku u zdravstvu, što je posebno vrijedno na razini zajednica.
Potreba za AfriMed-QA
Iako su modeli jezika uspješni na postojećim medicinskim benchmarkima, postoji neizvjesnost oko toga da li se generaliziraju na zadatke koji uključuju promjene u distribuciji bolesti, kontekstualne razlike u simptomima ili varijacije u jeziku i lingvistici, čak i unutar engleskog jezika. Također, lokalni kulturni konteksti i regijski medicinski znanja su važna za modele koji se koriste izvan tradicionalnih zapadnih okruženja. Bez raznovrsnih benchmark skupova podataka koji odražavaju raznolikost stvarnih konteksta, nemoguće je trenirati ili ocjenjivati modele u tim okruženjima, što ističe potrebu za još raznovrsnijim benchmark skupovima podataka.
Opis AfriMed-QA
AfriMed-QA je benchmark skup podataka za pitanja i odgovore koji spaja pitanja u stilu potrošača i ispite tipa medicinskog fakulteta iz 60 medicinskih škola u 16 afričkih zemalja. Skup podataka je razvijen u suradnji s brojnim partnerima, uključujući Intron Health, Sisonkebiotik, Sveučilište u Cape Coastu, Federaciju afričkih udruženja medicinskih studenata i BioRAMP, koji zajedno čine AfriMed-QA konsorcium, te s podrškom PATH/The Gates Foundation.
Evaluacija LLM odgovora
LLM odgovori su evaluirani na ovim skupovima podataka, usporedivši ih s odgovorima ljudskih stručnjaka i ocjenjujući ih prema ljudskoj preferenci. Metode korištene u ovom projektu mogu se skalirati na druge lokalitete gdje digitalizirani benchmarki trenutno nisu dostupni.
Nagrade i primjena
AfriMed-QA je objavljen na ACL 2025, gdje je osvojio nagradu za najbolju društvenu utjecajnu radu. Skup podataka je nedavno korišten za treniranje MedGemma, našeg najnovijeg otvorenog modela za multimodalno razumijevanje medicinskog teksta i slika. AfriMed-QA benchmark skupovi podataka i LLM evaluacijski kod su otvoreni i dostupni za zajednicu.
AfriMed-QA skup podataka
AfriMed-QA skup podataka je prvi velikomjerni pan-afrički multi-specialitetski skup podataka za pitanja i odgovore u medicini, dizajniran za ocjenjivanje i razvoj jednakih i učinkovitih LLM-a za afričko zdravstvo. Skup podataka obuhvaća oko 15.000 klinički raznovrsnih pitanja i odgovora na engleskom, više od 4.000 stručnih pitanja s više izbora (MCQ) s odgovorima, preko 1.200 otvorenih kratkih odgovora (SAQ) s dugim odgovorima, i 10.000 potrošačkih upita (CQ). Dizajniran je da strogo ocijeni LLM performanse za točnost i geografske pomake. Podaci su skupljeni od 621 suradnika iz više od 60 medicinskih škola u 12 zemalja, pokrivajući 32 medicinske specijalnosti, uključujući akusjerstvo i ginekologiju, neurokirurgiju, unutarnju medicinu, hitnu medicinu, medicinsku genetiku i zarazne bolesti.
Skupljanje podataka
Za skupljanje podataka, prilagodili smo web-platformu koju je ranije razvila Intron Health za skupljanje akcentiranih i multilingualnih kliničkih govora na velikoj skali u Africi. Razvili smo prilagođene korisničke sučelja za skupljanje svakog tipa pitanja, za pregled kvalitete i za slušaonost ljudske evaluacije LLM odgovora.
Kuracija skupa podataka i evaluacija LLM-a
MCQ i SAQ iz medicinskih škola imali su prateće ljudske oznake. Za CQ, kako bi se izbjeglo da potrošači dijele svoje zdravstvene informacije što bi moglo dovesti do potencijalnog otkrivanja zdravstvenih informacija, i ponavljanja tipova pitanja, potrošači su bili potaknuti scenarijem bolesti, a oni su odgovorili pitanjem koje bi postavili na temelju toga. Scenarij i pitanje su proslijeđeni LLM-u, a LLM odgovori su ocijenili ljudski klinički stručnjaci kao i potrošači.
Evaluacija LLM odgovora
Korištenjem kvantitativnih i kvalitativnih pristupa, evaluirali smo 30 generalnih i biomedicinskih LLM-a, koji su se kretao od malih do velikih. Neki su bili otvoreni, a drugi zatvoreni. Za MCQ i SAQ, LLM odgovori su usporedivani s ljudskim odgovorima, ocjenjivani su prema točnosti i LLM odgovori su ocijenjeni prema ljudskoj preferenci. Za CQ, LLM odgovori su ocijenjeni prema točnosti i relevantnosti.
Zaključak
AfriMed-QA predstavlja važan korak u razvoju jednakih i učinkovitih LLM-a za afričko zdravstvo. Njegovim korištenjem, modeli jezika mogu biti bolje prilagođeni lokalnim kontekstima i medicinskom znanju, poboljšavajući tako njihovu učinkovitost i pouzdanost u različitim afričkim okruženjima. Ovaj projekt ističe važnost raznolikosti i kontekstualnosti u razvoju i ocjenjivanju LLM-a, te nudi korisne resurse za daljnja istraživanja i primjene u medicini.
Česta pitanja
Koji su glavni ciljevi AfriMed-QA projekta?
Glavni ciljevi AfriMed-QA projekta su razvitak i ocjenjivanje velikih modela jezika (LLM) za pitanja i odgovore o zdravstvu u Africi, te poboljšanje njihove učinkovitosti i pouzdanosti u lokalnim kontekstima.
Koji su partneri uključeni u AfriMed-QA projekt?
AfriMed-QA projekt je rezultat suradnje s brojnim partnerima, uključujući Intron Health, Sisonkebiotik, Sveučilište u Cape Coastu, Federaciju afričkih udruženja medicinskih studenata i BioRAMP, te s podrškom PATH/The Gates Foundation.
Koliko podataka je skupljeno za AfriMed-QA?
AfriMed-QA skup podataka obuhvaća oko 15.000 klinički raznovrsnih pitanja i odgovora na engleskom, više od 4.000 stručnih pitanja s više izbora (MCQ) s odgovorima, preko 1.200 otvorenih kratkih odgovora (SAQ) s dugim odgovorima, i 10.000 potrošačkih upita (CQ).
Kako su podaci skupljeni za AfriMed-QA?
Podaci za AfriMed-QA su skupljeni od 621 suradnika iz više od 60 medicinskih škola u 12 zemalja, pokrivajući 32 medicinske specijalnosti. Korištena je web-platforma za skupljanje podataka, te su razvijena prilagođena korisnička sučelja za skupljanje svakog tipa pitanja, za pregled kvalitete i za slušaonost ljudske evaluacije LLM odgovora.
Kako su LLM odgovori evaluirani u AfriMed-QA?
LLM odgovori su evaluirani korištenjem kvantitativnih i kvalitativnih pristupa. Usporedili su se s ljudskim odgovorima, ocjenjivani su prema točnosti i LLM odgovori su ocijenjeni prema ljudskoj preferenci. Za potrošačke upite, LLM odgovori su ocijenjeni prema točnosti i relevantnosti.
AfriMed-QA predstavlja važan korak u razvoju jednakih i učinkovitih LLM-a za afričko zdravstvo. Njegovim korištenjem, modeli jezika mogu biti bolje prilagođeni lokalnim kontekstima i medicinskom znanju, poboljšavajući tako njihovu učinkovitost i pouzdanost u različitim afričkim okruženjima. Ovaj projekt ističe važnost raznolikosti i kontekstualnosti u razvoju i ocjenjivanju LLM-a, te nudi korisne resurse za daljnja istraživanja i primjene u medicini.





![ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno] 6 chatgpt5](https://umjetnai.com/wp-content/uploads/2025/08/chatgpt5-360x180.webp)







![Novi hibridni platforma za kvantnu simulaciju magnetizma 14 ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno]](https://umjetnai.com/wp-content/uploads/2025/08/526750221_1101661142120887_3623883531199391571_n-1-360x180.jpg)

