Marketing Tehnologija Umjetna inteligencija

Postizanje smanjenja podataka za obuku do 10,000 puta uz visoko kvalitetne oznake

30.11.2025.

197

U današnje vrijeme, kada se suočavamo s izazovima u obradi podataka, posebno u kontekstu oglašavanja, nova metoda aktivnog učenja pokazuje se kao revolucionarna.

U današnje vrijeme, kada se suočavamo s izazovima u obradi podataka, posebno u kontekstu oglašavanja, nova metoda aktivnog učenja pokazuje se kao revolucionarna. Ova metoda omogućava značajno smanjenje potrebnih podataka za obuku prilikom fino podešavanja velikih jezičnih modela (LLM) uz održavanje visoke kvalitete oznaka. U ovom članku istražit ćemo kako ova inovacija može transformirati pristup klasifikaciji neprimjerenog sadržaja u oglasima, istovremeno smanjujući troškove i vrijeme potrebno za obradu podataka.

Što je aktivno učenje i zašto je važno?

Aktivno učenje je pristup u strojnom učenju gdje model može odabrati koje podatke želi da mu budu označeni. Ovaj proces omogućava modelu da se fokusira na najinformativnije primjere, čime se smanjuje ukupna količina podataka potrebnih za obuku. U kontekstu oglašavanja, gdje je važno brzo i precizno prepoznati sadržaj koji krši pravila, aktivno učenje može značajno unaprijediti učinkovitost modela.

Prednosti aktivnog učenja

Smanjenje troškova: Manje podataka za označavanje znači niže troškove rada i resursa.
Povećanje točnosti: Fokusiranje na najizazovnije primjere može poboljšati preciznost modela.
Brže iteracije: Ubrzava proces obuke, omogućujući brže prilagodbe modela.

Kako funkcionira proces kuracije podataka?

Naš proces započinje s inicijalnim modelom (LLM-0) koji se koristi za generiranje oznaka za oglase. Ovaj model analizira sadržaj i klasificira oglase kao clickbait (zavaravajući sadržaj) ili benigni (neškodljiv). U prvoj fazi, model generira veliku količinu označenih podataka, no često dolazi do nerazmjernosti jer samo mali postotak oglasa zapravo predstavlja clickbait.

Identifikacija informativnih primjera

Kako bismo pronašli najinformativnije primjere, klasificiramo oglase u skupine. Oglasi označeni kao clickbait i benigni grupiraju se, a zatim se traže parovi s različitim oznakama koji su blizu jedan drugome. Ovi parovi se šalju ljudskim stručnjacima na daljnju analizu. Ovaj pristup omogućava da se fokusiramo na primjere koji su najizazovniji za model, čime se poboljšava kvaliteta obuke.

Rezultati i postignuća

U našim eksperimentima, uspjeli smo smanjiti potrebnu količinu podataka za obuku s 100,000 na manje od 500 primjera, dok je istovremeno povećana usklađenost modela s ljudskim stručnjacima za čak 65%. Ovaj proces je primijenjen na sustave koji koriste veće modele, gdje su zabilježena još veća smanjenja potrebnih podataka, čak do četiri reda veličine, uz održavanje ili poboljšanje kvalitete.

Mjerenje uspješnosti

Za procjenu uspješnosti našeg procesa kuracije koristimo Cohenovu Kappu, mjeru koja pokazuje koliko se dva neovisna anotatora slažu iznad očekivane slučajne slaganja. Vrijednosti bliže 1 ukazuju na visoku usklađenost, dok negativne vrijednosti ukazuju na sustavni nesporazum. U našim eksperimentima, Kappa vrijednosti iznad 0.8 smatraju se iznimno dobrima.

Primjena u stvarnom svijetu

Ova metoda nije samo teorijska; već se primjenjuje u stvarnim sustavima oglašavanja. Na primjer, modeli su fino podešeni na temelju podataka koji su prikupljeni putem aktivnog učenja, što je omogućilo brže prepoznavanje i uklanjanje neprimjerenih oglasa. U 2026. godini, očekuje se da će se ovakvi pristupi dodatno razvijati, a njihova primjena proširiti na različite industrije.

Izazovi i budućnost

Iako su rezultati obećavajući, postoje i izazovi. Kvaliteta podataka i dalje ostaje ključni faktor, a promjene u pravilima i politikama oglašavanja zahtijevaju kontinuirano prilagođavanje modela. Najnovija istraživanja pokazuju da će se potreba za visoko kvalitetnim oznakama samo povećavati, stoga je važno nastaviti razvijati metode koje omogućuju efikasnu kuraciju podataka.

Zaključak

Postizanje smanjenja podataka za obuku do 10,000 puta uz visoko kvalitetne oznake predstavlja značajan korak naprijed u području strojne obrade podataka i oglašavanja. Aktivno učenje omogućava modelima da postanu učinkovitiji, smanjujući troškove i vrijeme potrebno za obuku. Kako se tehnologija razvija, očekuje se da će se ovi pristupi nastaviti usavršavati, donoseći nove mogućnosti za industriju.