Zašto je kritično napustiti previše agregirane modela strojnog učenja

01.02.2026.

193

Istraživači s MIT-a identificirali su značajne primjere neuspjeha modela strojnog učenja kada se ti modeli primjenjuju na podatke koji nisu oni na kojima su trenirani. To podiže pitanja o potrebi testiranja svaki put kada se model implementira u novoj okolini.

„Dokazujemo da čak i kada trenirate modele na velikim količinama podataka i odaberete najbolji prosječni model, u novoj situaciji ovaj ‘najbolji model’ može biti najgori model za 6-75 posto novih podataka,” kaže Marzyeh Ghassemi, docent na Odjelu za elektrotehniku i računarstvo (EECS) na MIT-u, član Instituta za medicinsku inženjeriju i znanost, te voditelj istraživanja u Laboratoriju za informacije i odluke.

U članci koji je predstavljen na konferenciji Neural Information Processing Systems (NeurIPS 2025) u prosincu, istraživači ističu da modeli trenirani za učinkovito dijagnosticiranje bolesti na rentgen snimkama prsa u jednoj bolnici, na primjer, mogu se smatrati učinkovitim u drugoj bolnici, u prosjeku. Ipak, procjena performansi istraživača otkrila je da neki od najbolje performirajućih modela u prvoj bolnici bili su najgori performirajući na čak do 75 posto pacijenata u drugoj bolnici, iako kada se svi pacijenti agregiraju u drugoj bolnici, visoka prosječna performansa sakriva ovaj neuspjeh.

Njihovi nalazi pokazuju da iako se lažne korelacije – jednostavan primjer je kada strojno učenje sustav, koji nije “vidio” puno krava na plaži, klasificira fotografiju plaže s krava kao orku zbog svoje pozadine – smatraju da su umanjene samo poboljšanjem performansi modela na posmatranim podacima, one ipak nastavljaju postojati i predstavljaju rizik za pouzdanost modela u novim okolinama. U mnogim slučajevima – uključujući oblasti koje su istražili istraživači, kao što su rentgenske snimke prsa, histopatološke slike raka i detekcija mržnje – takve lažne korelacije teže je otkriti.

U slučaju modela za dijagnosticiranje bolesti treniranog na rentgenskim snimkama prsa, na primjer, model je mogao naučiti korelirati određeni i nebitan označavač na rentgenskim snimkama jedne bolnice s određenom patologijom. U drugoj bolnici gdje se označavač ne koristi, ta patologija bi mogla biti propuštena.

Prethodna istraživanja Ghassemijeve grupe pokazala su da modeli mogu lažno korelirati takve čimbenike kao što su dob, spol i rasa s medicinskim nalazima. Ako, na primjer, model je treniran na više rentgenskih snimki starijih ljudi s upalom pluća i nije “vidio” toliko snimki pripadnika mlađih ljudi, mogao bi predvidjeti da samo stariji pacijenti imaju upalu pluća.

„Želimo da modeli nauče kako da gledaju na anatomska svojstva pacijenta, a zatim donose odluku na temelju toga,” kaže Olawale Salaudeen, postdoktorand na MIT-u i voditelj autora članka, „ali stvarno sve što je u podacima korelirano s odlukom može biti iskorišteno od strane modela. Te korelacije možda neće biti robustne s promjenama u okolini, čineći modelove predviđanja nepouzdanim izvorima za donošenje odluka… korelacije doprinose rizicima sesiranog donošenja odluka. U članku konferencije NeurIPS, istraživači su pokazali, na primjer, da modeli rentgenskih snimki prsa koji su poboljšali ukupnu dijagnostičku performansu zapravo su loše performirali na pacijentima s pljučnim stanjima ili proširenom kardiomediastinom, što znači proširenje srca ili središnjeg prsnog prostora.

Drugi autori članka bili su PhD studenti Haoran Zhang i Kumail Alhamoud, asistent profesor EECS Sara Beery i Ghassemi.

Dok je prethodno istraživanje uglavnom prihvatilo da će modeli poredani od najboljeg do najgoreg po performansama zadržati taj redoslijed kada se primjenjuju u novim okolinama, nazvanim accuracy-on-the-line, istraživači su uspjeli pokazati primjere kada su najbolje performirajući modeli u jednoj situaciji bili najgori performirajući u drugoj.

Salaudeen je razvio algoritam nazvan OODSelect da pronađe primjere gdje je accuracy-on-the-line prekinut. Osnovno, trenirao je tisuće modela koristeći in-distribution podatke, što znači da su podaci bili iz prve situacije, i izračunao njihovu točnost. Zatim je primijenio modele na podatke iz druge situacije. Kada su oni s najvišom točnošću na podacima prve situacije bili pogrešni kada su primijenjeni na veliki postotak primjera u drugoj situaciji, to je identificiralo problematske podskupine ili podskupine. Salaudeen također naglašava opasnosti agregiranih statistika za procjenu, koje mogu sakriti detaljnije i konačnije informacije o performansama modela.

U tijeku svog rada, istraživači su odvojili „najviše pogrešno izračunate primjere” kako ne bi miješali lažne korelacije unutar skupa podataka s situacijama koje su jednostavno teške za klasificirati.

Članak NeurIPS objavljuje kod istraživača i neke identificirane podskupine za buduća istraživanja.

Zašto je važno napustiti previše agregirane modele strojnog učenja

Kada se modeli strojnog učenja treniraju na velikim skupovima podataka, često se koriste agregirani podaci kako bi se dobile najbolje performanse. Međutim, to može dovesti do problema kada se modeli primjenjuju na nove, različite skupove podataka. Istraživanja pokazuju da najbolje performirajući modeli u jednoj situaciji mogu biti najgori u drugoj, što podiže pitanja o pouzdanosti i pouzdanosti modela.

Rizici lažnih korelacija

Lažne korelacije mogu nastati kada modeli strojnog učenja uče iz podataka koji sadrže korelacije koje nisu relevantne za predviđanje. Na primjer, model koji je treniran na fotografijama krava na plaži može klasificirati fotografiju plaže s krava kao orku zbog pozadine. Ovo može dovesti do pogrešnih predviđanja kada se model primijeni na nove, različite skupove podataka.

Lažne korelacije mogu biti teže otkriti u nekim područjima, kao što su medicinska dijagnostika i detekcija mržnje. U medicinskoj dijagnostici, modeli mogu naučiti korelirati određene nebitne označavače s određenom patologijom, što može dovesti do pogrešnih dijagnoza.

Rizici sesiranog donošenja odluka

Lažne korelacije mogu dovesti do sesiranog donošenja odluka, što znači da modeli mogu donositi odluku na temelju korelacija koje nisu relevantne za predviđanje. Na primjer, model koji je treniran na rentgenskim snimkama starijih ljudi s upalom pluća može predvidjeti da samo stariji pacijenti imaju upalu pluća, iako to nije istinito.

Sesirano donošenje odluka može imati ozbiljne posljedice, posebno u kritičnim područjima kao što su medicinska dijagnostika i pravosudstvo. Na primjer, pogrešna dijagnoza može dovesti do neadekvatne medicinske njege, što može biti životno opasno.

Rizici nepouzdanih predviđanja

Lažne korelacije mogu dovesti do nepouzdanih predviđanja, što znači da modeli mogu donositi predviđanja koja nisu pouzdana. Na primjer, model koji je treniran na rentgenskim snimkama prsa može donositi predviđanja koja nisu pouzdana kada se primijeni na snimke iz druge bolnice.

Nepouzdana predviđanja mogu imati ozbiljne posljedice, posebno u kritičnim područjima kao što su medicinska dijagnostika i financijski tržišta. Na primjer, nepouzdana predviđanja u financijskim tržištima mogu dovesti do velikih gubitaka.

Zaključak

U ovom članku razmatrali smo zašto je kritično napustiti previše agregirane modele strojnog učenja. Istraživanja pokazuju da najbolje performirajući modeli u jednoj situaciji mogu biti najgori u drugoj, što podiže pitanja o pouzdanosti i pouzdanosti modela. Lažne korelacije mogu nastati kada modeli strojnog učenja uče iz podataka koji sadrže korelacije koje nisu relevantne za predviđanje, što može dovesti do pogrešnih predviđanja, sesiranog donošenja odluka i nepouzdanih predviđanja.

Važno je da se modeli strojnog učenja testiraju i validiraju na različitim, različitim skupovima podataka kako bi se osiguralo da su pouzdani i pouzdani. To može pomoći u smanjenju rizika lažnih korelacija, sesiranog donošenja odluka i nepouzdanih predviđanja.

Česta pitanja

Što je lažna korelacija?

Lažna korelacija je korelacija između dvije varijable koja nije uzročno-posljedična. Na primjer, model koji je treniran na fotografijama krava na plaži može klasificirati fotografiju plaže s krava kao orku zbog pozadine.

Zašto su lažne korelacije problem?

Lažne korelacije mogu dovesti do pogrešnih predviđanja, sesiranog donošenja odluka i nepouzdanih predviđanja. Na primjer, model koji je treniran na rentgenskim snimkama starijih ljudi s upalom pluća može predvidjeti da samo stariji pacijenti imaju upalu pluća, iako to nije istinito.

Kako se lažne korelacije mogu otkriti?

Lažne korelacije mogu biti teže otkriti u nekim područjima, kao što su medicinska dijagnostika i detekcija mržnje. Međutim, postoji nekoliko metoda koje se mogu koristiti za otkrivanje lažnih korelacija, uključujući provjeru modela na različitim, različitim skupovima podataka i korištenje metoda kao što je OODSelect.

Kako se lažne korelacije mogu umanjiti?

Lažne korelacije mogu se umanjiti pomoću nekoliko metoda, uključujući treniranje modela na većim i raznovrsnijim skupovima podataka, korištenje metoda kao što je OODSelect za otkrivanje i uklanjanje lažnih korelacija, te korištenje metoda kao što je transfer learning za prilagođavanje modela na nove, različite skupove podataka.

Zašto je važno testirati modele strojnog učenja na različitim, različitim skupovima podataka?

Važno je testirati modele strojnog učenja na različitim, različitim skupovima podataka kako bi se osiguralo da su pouzdani i pouzdani. To može pomoći u smanjenju rizika lažnih korelacija, sesiranog donošenja odluka i nepouzdanih predviđanja.