Umjetna inteligencija sve više ulazi u medicinski sektor, a njezina sposobnost da brzo i precizno prepozna simptome, propisuje terapije i predvidi ishode postaje ključna za modernu zdravstvenu praksu. Međutim, većina modela je razvijena i testirana na podacima iz zapadnog svijeta, što može dovesti do ozbiljnih nesavršenosti kada se primjenjuju u kontekstima s drugačijim epidemiološkim profilima, jezičnim nijansama i ograničenim resursima. Kako bi se otklonila ta praznina, Google Research i 15 afričkih institucija predstavili su AfriMed-QA – prvi kontinentni benchmark namijenjen testiranju medicinskih AI sustava u područjima s ograničenim resursima.
Zašto je potreban novi benchmark?
Standardni setovi podataka poput USMLE MedQA ili MedMCQA bazirani su na američkim i europskim kurikulumima. Oni naglašavaju kronične bolesti, pretpostavljaju dostupnost naprednih dijagnostičkih alata i koriste specifične nazive lijekova koji se ne nalaze u afričkim farmaceutskim tržištima. Kada AI sustav „prođe“ takve testove, često se smatra spremnim za globalnu primjenu, ali u stvarnosti može propustiti ključne dijagnostičke signale, preporučiti skupe ili nepostojeće lijekove i nespretno interpretirati lokalni jezik. AfriMed-QA je stvoren da otkrije takve propuste prije nego što se modeli implementiraju u praksi.
Škala i sastav podataka
AfriMed-QA sadrži otprilike 15.000 raznovrsnih medicinskih stavki na engleskom jeziku, podijeljenih na tri glavne kategorije:
- 4.000+ višestrukih izbora (MCQ) – kreirana od strane fakulteta u 60 medicinskih škola iz 16 afričkih zemalja, pokrivajući 32 specijalnosti, uključujući infekcijske bolesti, ginekologiju, neurohirurgiju i medicinsku genetiku.
- 1.200+ kratkih odgovora (SAQ) – zahtijevaju paragraf‑duge objašnjenje s jasno definiranim rubrikama za idealne odgovore.
- 10.000 potrošačkih upita (CQ) – generirani scenarijima umjesto osobnih povijesti, osiguravajući autentičan jezik potrošača bez narušavanja privatnosti.
Prikupljanje podataka obavljeno je putem otvorene web‑platforme, koja je prvotno razvijena za prikupljanje govora s akcentom. Lokalizirani su interfejsi koji su sudionicima omogućili pisanje, pregledavanje i označavanje stavki, uz dodatne smjernice za kvalitetu i relevantnost.
Kako benchmark utječe na razvoj AI sustava?
AfriMed-QA pruža realističan test za modele koji se planiraju koristiti u sub-saharskim zdravstvenim ustanovama. Testiranje na ovakvom setu podataka otkriva:
- Neusklađenost s lokalnim epidemiološkim profilima – npr. prepoznavanje malarije, trihomorfa ili drugih endemskih bolesti.
- Jezične barijere – razumijevanje lokalnih izraza za bol, simptome i medicinske termine.
- Praktične preporuke – odabir terapija dostupnih u lokalnim farmaceutskim lanci i uzimanje u obzir troškova.
Rezultati omogućuju istraživačima i