AfriMed-QA: Prvi afrički benchmark za testiranje medicinske umjetne inteligencije u područjima s ograničenim resursima

Umjetna inteligencija sve više ulazi u medicinski sektor, a njezina sposobnost da brzo i precizno prepozna simptome, propisuje terapije i predvidi ishode postaje ključna za modernu zdravstvenu praksu. Međutim, većina modela je razvijena i testirana na podacima iz zapadnog svijeta, što može dovesti do ozbiljnih nesavršenosti kada se primjenjuju u kontekstima s drugačijim epidemiološkim profilima, jezičnim nijansama i ograničenim resursima. Kako bi se otklonila ta praznina, Google Research i 15 afričkih institucija predstavili su AfriMed-QA – prvi kontinentni benchmark namijenjen testiranju medicinskih AI sustava u područjima s ograničenim resursima.

Zašto je potreban novi benchmark?

Standardni setovi podataka poput USMLE MedQA ili MedMCQA bazirani su na američkim i europskim kurikulumima. Oni naglašavaju kronične bolesti, pretpostavljaju dostupnost naprednih dijagnostičkih alata i koriste specifične nazive lijekova koji se ne nalaze u afričkim farmaceutskim tržištima. Kada AI sustav „prođe“ takve testove, često se smatra spremnim za globalnu primjenu, ali u stvarnosti može propustiti ključne dijagnostičke signale, preporučiti skupe ili nepostojeće lijekove i nespretno interpretirati lokalni jezik. AfriMed-QA je stvoren da otkrije takve propuste prije nego što se modeli implementiraju u praksi.

Škala i sastav podataka

AfriMed-QA sadrži otprilike 15.000 raznovrsnih medicinskih stavki na engleskom jeziku, podijeljenih na tri glavne kategorije:

4.000+ višestrukih izbora (MCQ) – kreirana od strane fakulteta u 60 medicinskih škola iz 16 afričkih zemalja, pokrivajući 32 specijalnosti, uključujući infekcijske bolesti, ginekologiju, neurohirurgiju i medicinsku genetiku.
1.200+ kratkih odgovora (SAQ) – zahtijevaju paragraf‑duge objašnjenje s jasno definiranim rubrikama za idealne odgovore.
10.000 potrošačkih upita (CQ) – generirani scenarijima umjesto osobnih povijesti, osiguravajući autentičan jezik potrošača bez narušavanja privatnosti.

Prikupljanje podataka obavljeno je putem otvorene web‑platforme, koja je prvotno razvijena za prikupljanje govora s akcentom. Lokalizirani su interfejsi koji su sudionicima omogućili pisanje, pregledavanje i označavanje stavki, uz dodatne smjernice za kvalitetu i relevantnost.

Kako benchmark utječe na razvoj AI sustava?

AfriMed-QA pruža realističan test za modele koji se planiraju koristiti u sub-saharskim zdravstvenim ustanovama. Testiranje na ovakvom setu podataka otkriva:

Neusklađenost s lokalnim epidemiološkim profilima – npr. prepoznavanje malarije, trihomorfa ili drugih endemskih bolesti.
Jezične barijere – razumijevanje lokalnih izraza za bol, simptome i medicinske termine.
Praktične preporuke – odabir terapija dostupnih u lokalnim farmaceutskim lanci i uzimanje u obzir troškova.

Rezultati omogućuju istraživačima i

AfriMed-QA: Prvi afrički benchmark za testiranje medicinske umjetne inteligencije u područjima s ograničenim resursima

Zašto je potreban novi benchmark?

Škala i sastav podataka

Kako benchmark utječe na razvoj AI sustava?

Odgovori Otkaži odgovor