Uvod u GIST: Sljedeći korak u pametnom uzorkovanju podataka

01.02.2026.

192

godine, Morteza Zadimoghaddam i Matthew Fahrbach, istraživači iz Google Researcha, predstavljaju GIST, revolucionarni algoritam koji pruža dokazane jamstva za odabir visokokvalitetnog podskupa podataka koji maksimalno povećava i raznolikost i korisnost podataka.

U siječnju 2026. godine, Morteza Zadimoghaddam i Matthew Fahrbach, istraživači iz Google Researcha, predstavljaju GIST, revolucionarni algoritam koji pruža dokazane jamstva za odabir visokokvalitetnog podskupa podataka koji maksimalno povećava i raznolikost i korisnost podataka. Brzi linkovi Paper × Moderna strojačka učenja (ML) otključala su neprethodne performanse, ali to je došlo na račun obrade sve većih i složenijih skupova podataka. Od velikih modela jezika (LLM) do sustava za računalni vid, zajednički izazov je rukovanje masivnim količinama podataka koje je skupo obraditi. To zahtijeva odabir podskupa – zadatak odabira manjeg, reprezentativnog skupa podataka iz cijelog skupa podataka za tipičnu zadatak treniranja (ne za finu podesu). Pitanje je kako se moći biti sigurni da ovaj podskup sadrži dovoljno informacija za treniranje točnog modela? Na NeurIPS 2025, predstavili smo Greedy Independent Set Thresholding (GIST), novi algoritam koji pomaže riješiti ovaj problem balansiranjem “raznolikosti” podataka (osiguravajući da odabrani podaci nisu duplikati) i “korisnosti” podataka (podaci koji su relevantni i korisni za zadatak). GIST ne samo da nadmašuje zadatke benchmarka najnovijih standarda, kao što je klasifikacija slika, nego to čini s matematičkim jamstvom o kvalitetu rješenja.

Sukob: Zašto je pametno uzorkovanje teško

Kada se odabire podskup podataka, istraživači moraju balansirati dvije često suprotstavljene ciljeve: raznolikost i korisnost. Obezbeđivanje raznolikosti podataka osigurava da odabrani podaci nisu duplikati. Korisnost mjeri ukupnu korisnost ili informativnu vrijednost odabranog podskupa. Za raznolikost se fokusira na maksimaliziranje minimalne udaljenosti (tipično u prostoru ugrađivanja) između bilo kojih dva odabrana podatka, poznato kao max-min raznolikost. Ako odaberete dva podatka koja su vrlo slična (npr. dvije gotovo identične slike zlatnog retrivera), vaša raznolikost je niska. Max-min raznolikost prisiljava vas da odaberete točke koje su sve što su moguće udaljenije jedna od druge, minimizirajući duplikate i osiguravajući široko pokrivenost pejzaža podataka. Za korisnost se fokusira na klasu monotonskih submodularnih funkcija, koje ciljaju na maksimaliziranje ukupne jedinstvene informacije koju pokriva podskup. Teškoća leži u kombiniranju ovih dva cilja. Čisti max-min strategija mogla bi odabrati raznovrsne, ali konačno irelevantne podatke, dok bi čista korisnost mogla odabrati usku, visoko relevantnu grupu duplikata. Pronalaženje podskupa koji je maksimalno rasprostranjen i maksimalno informativan je složeni kombinatorni problem koji je poznat kao NP-težak, što znači da nijedan algoritam ne može pronaći najbolje rješenje učinkovito, posebno za masivne skupove podataka. Ovaj unutarnji sukob zahtijeva pametnu strategiju aproksimacije.

Kako radi GIST

1. Praćenje graničnog razmjera raznolikosti

Pronalaženje savršenog podskupa je nepraktično, pa se cilj pomaknuo na pronalazak algoritma s dokazanim jamstvom aproksimacije – matematičkom sigurnosnom mrežom koja jamči da je rješenje uvijek blizu pravog optimuma. Ovamo ulazi GIST s svojim revolucionarnim rješenjem. GIST razdvaja izazov raznolikosti–korisnosti u seriju jednostavnijih, ali srodnih, optimizacijskih problema: 1. Praćenje graničnog razmjera raznolikosti GIST počinje privremenim izoliranjem komponente raznolikosti. Umjesto pokušaja maksimaliziranja minimalne udaljenosti između svih točaka (teški dio), GIST rješava jednostavniji problem: “Za određeni fiksni minimalni razmak, koji je najbolji podskup podataka koji možemo odabrati?” Fiksiranjem minimalnog potrebnog razmaka, GIST obrađuje podatke koristeći graf u kojem dvije točke nisu povezane samo ako je njihova udaljenost manja od određene udaljenosti. U ovom grafu bilo koje dvije povezane točke smatraju se previše sličnim da budu u konačnom podskupu. GIST traži točku s najvišim ocjenom koja još nije unutar nečije sfere. Zatim odabire najviše ocjenjene “VIP” podatke (točke s brojevima) i crta “zabranjenu zonu” oko njih kako bi se osiguralo da je konačni odabir visokokvalitetan i raznovrstan. Viši broj znači da je određeni podatak više vrijedan za učenje.

2. Aproksimacija nezavisnog skupa

GIST zatim traži podskup maksimalne korisnosti koji se može odabrati gdje nijedne dvije točke nisu povezane u ovom grafu: klasični problem maksimalnog nezavisnog skupa. Zamislite planiranje večere gdje određeni gosti ne mogu sjediti zajedno. Vaš cilj je pozvati najzanimljiviju grupu ljudi moguće, ali morate pratiti jedno pravilo: nijedna dva čovjeka na stolu ne mogu imati sukob. Ovo je ogroman zagonetka jer odabir jednog gosta može “blokirati” vas od pozivanja tri druga visokointeresirana osobe. Da biste pronašli najbolju kombinaciju, morate provjeriti eksponencijalni broj grupa, što ga čini jednim od najtežih problema u računarstvu. Problem maksimalnog nezavisnog skupa sam po sebi je NP-potpun (što znači da se vjeruje da ne postoji učinkovit algoritam za pronalazak apsolutnog “najboljeg” rješenja).

Zaključak

GIST predstavlja revolucionarni pristup odabiru podataka, pružajući dokazana jamstva o kvaliteti rješenja i balansirajući raznolikost i korisnost podataka. Njegova sposobnost rješavanja složenih optimizacijskih problema čini ga neprocjenjivim alatom za istraživače i inženjere koji rade s velikim skupovima podataka. U budućnosti, očekujemo da će GIST postati standard u industriji strojačkog učenja, pružajući naučnicima i inženjerima alat koji će im omogućiti da treniraju modela s većom preciznošću i efikasnošću.

Česta pitanja

1. Kako GIST razlikuje od drugih metoda odabira podskupa?

GIST se razlikuje od drugih metoda odabira podskupa po tome što pruža dokazana jamstva o kvaliteti rješenja, balansirajući raznolikost i korisnost podataka. Drugi algoritmi mogu biti učinkoviti, ali ne nude istu razinu garantiranog performansnog jamstva.

2. Može li GIST biti primijenjen na različite vrste podataka?

Da, GIST je dizajniran da se može primijeniti na različite vrste podataka, uključujući slike, tekst i druge tipove podataka. Njegova fleksibilnost i sposobnost rješavanja složenih optimizacijskih problema čine ga univerzalnim alatom za odabir podataka.

3. Kako se GIST može integrirati u postojeće sustave strojačkog učenja?

GIST se može integrirati u postojeće sustave strojačkog učenja kao modul za odabir podataka. Može se koristiti za pretprocesiranje podataka prije treniranja modela, pružajući naučnicima i inženjerima mogućnost da treniraju modela s manjim, ali reprezentativnim skupovima podataka.

4. Koje su buduće smjernice za razvoj GIST-a?

Buduće smjernice za razvoj GIST-a uključuju istraživanje novih metoda za poboljšanje njegovih jamstava i primjenu na još složenije i veće skupove podataka. Također, očekuje se da će se istražiti njegove primjene u drugim područjima strojačkog učenja i umjetne inteligencije.

5. Kako se GIST može koristiti za poboljšanje performansi modela?

GIST može poboljšati performanse modela pružajući naučnicima i inženjerima mogućnost da treniraju modela s manjim, ali reprezentativnim skupovima podataka. To može rezultirati bržim treniranjem i boljim performansama modela na testnim podacima.