10.000x smanjenje podataka za treniranje s visokokvalitetnim oznakama

01.02.2026.

195

Markus Krause, voditelj inženjerstva, i Nancy Chang, znanstvenica istraživanja, Google AdsNovi aktivni učenje metoda za prikupljanje visokokvalitetnih podataka koji smanjuje zahtjeve za treniranjem podataka za finu podesu LLMs za redove veličine.

Markus Krause, voditelj inženjerstva, i Nancy Chang, znanstvenica istraživanja, Google Ads

Novi aktivni učenje metoda za prikupljanje visokokvalitetnih podataka koji smanjuje zahtjeve za treniranjem podataka za finu podesu LLMs za redove veličine. Klasifikacija nepoželjnih oglasa je bila privlačna problemska oblast za iskorištavanje velikih jezičnih modela (LLMs). Urođena složenost u prepoznavanju sadržaja koji krši politiku zahtijeva rješenja koja su sposobna dubokog kontekstualnog i kulturnog razumijevanja, područja relativne jačine LLMs u odnosu na tradicionalne sustave strojnog učenja. Ali, fino podešavanje LLMs za takve složene zadatke zahtijeva visokokvalitetne podatke za treniranje koji su teški i skupi da se prikupe na potrebnoj kvaliteti i veličini. Standardni podatkovno-intenzivni pristupi treniranju modela su skupi, posebno s obzirom na potrebu za rukovanjem konceptualnim pomakom kada se politike sigurnosti razvijaju ili kada nastaju novi tipovi nepoželjnih oglasa. U najgorem slučaju, model mora biti ponovo treniran na potpuno novom skupu podataka. Zato je smanjenje količine podataka potrebnih za treniranje od presudnog značaja. S tim u vidu, opisujemo novi, skalabilni proces prikupljanja za aktivno učenje koji može znatno smanjiti količinu podataka potrebnih za fino podešavanje LLMs dok značajno poboljšava poravnanje modela s ljudskim stručnjacima. Proces se može primijeniti na skupove podataka od stotina milijardi primjera za iterativno identificiranje primjera za koje bi anotacija bila najvrijednija, a zatim koristiti rezultirajuće oznake stručnjaka za fino podešavanje. U našim eksperimentima, uspjeli smo smanjiti veličinu podataka za treniranje s 100.000 na manje od 500 primjera za treniranje, dok smo povećali poravnanje modela s ljudskim stručnjacima za do 65%. Proizvodni sustavi koji koriste veće modele vidjeli su čak veće smanjenja u veličini podataka, koristeći do četiri reda veličine manje podataka dok se održava ili poboljšava kvaliteta.

Proces prikupljanja

Naš proces počinje s nulom ili malim brojem inicijalnih modela (LLM-0), koji se navodi na opis sadržaja od interesa, na primjer, definiranje clickbaita i pitanje “Je li ovaj oglas clickbait?” LLM-0 model zatim označava oglase kao clickbait (narandžasta boja na slici ispod) ili bezopasan (plava) i generira veliki označeni skup podataka, prikazan kao (1) ispod. Imajte na umu da je ovaj inicijalni skup podataka obično vrlo nebalansiran, jer u proizvodnom saobraćaju vrlo malo (<1%) oglasa zapravo predstavlja clickbait. Istinski pozitivni omjer LLM-a je također nizak jer još nije fino podešen. Da bismo pronašli najinformativnije primjere, zasebno grupiramo primjere označene kao clickbait i primjere označene kao bezopasne, što daje neke preklapajuće grupe, što ukazuje na potencijalnu zabunu modela između clickbaita i bezopasnih primjera (2). Za svaki takav preklapajući par grupa pronalazimo parove primjera koji se nalaze najbliže jedni drugima koji imaju različite oznake (3) i šaljemo ih stručnjacima za mišljenje. Ako je potrebno ostati unutar našeg budžeta za pregled, prioritet dajemo parovima primjera koji pokrivaju veći dio našeg istraživačkog prostora (4). Rezultirajući skup je i informativan (jer sadrži najzabavnijih primjere uz granicu odluke) i raznovrstan (jer dolazi iz različitih regija uz granicu odluke). Proces prikupljanja generira privremene oznake koristeći LLM s nekoliko šota i zatim grupira svaki skup oznaka. Preklapajuće grupe s različitim oznakama se koriste za identificiranje uzoraka parova primjera koji su i informativni i raznovrsni. Oznake pružene od stručnjaka nasumično se dijele na dva skupa. Prvi se koristi za procjenu modela, na temelju dva ključna metrika poravnanja: unutarnje poravnanje koje mjeri koliko se stručnjaci slažu, i poravnanje modela–čovjeka između trenutnog modela i stručnjaka. Drugi se koristi za fino podešavanje trenutnih modela, proizvodeći sljedeću iteraciju modela. Proces se ponavlja dok poravnanje modela–čovjeka ne dosegne unutarnje poravnanje ili se ne zaustavi i ne može se više poboljšati.

Metrika

Naš proces prikupljanja ne pretpostavlja postojanje istine. Mnogi problemi klasifikacije u prostoru sigurnosti oglasa, kao što su moderacija sadržaja ili otkrivanje prevare, su po prirodi neodređeni i zahtijevaju interpretaciju i razmatranje, čak i među ekspertima za politiku. Zato se ne možemo osloniti na standardne metrike kao što su preciznost i odziv, koje zahtijevaju oznaku istine. Umjesto toga koristimo Cohenov Kappa, mjera koliko dobro se dva nezavisna anotatora slažu, iznad onoga što bi se očekivalo od slučajnog slaganja. U našim eksperimentima, Cohenov Kappa se koristi kao indikator kvalitete za skupove podataka (uključujući procjenu modela tijekom procesa prikupljanja, kao što je navedeno iznad) i kao mjera performansi modela. Vrijednosti bliže 1 pokazuju veće poravnanje, 0 označava nema poravnanja iznad slučajnog, a negativne vrijednosti označavaju sistematsko neslaganje. Dok se standardi za tumačenje tih ocjena razlikuju, Kappa vrijednosti iznad .8 široko se smatraju izuzetno dobrim, a vrijednosti iznad .6 su smatrane dobrim.

Zaključak

U ovom članku istražili smo novi aktivni učenje metoda za prikupljanje visokokvalitetnih podataka koji smanjuje zahtjeve za treniranjem podataka za finu podesu LLMs za redove veličine. Naš proces prikupljanja pokazao je da je moguće znatno smanjiti količinu podataka potrebnih za fino podešavanje LLMs dok se značajno poboljšava poravnanje modela s ljudskim stručnjacima. Naši eksperimentalni rezultati pokazuju da je ovaj pristup promjenjiv i može se primijeniti na različite probleme klasifikacije u prostoru sigurnosti oglasa. U budućim radovima planiramo istražiti kako se ovaj pristup može primijeniti na druge domene i kako se može poboljšati dodatnim tehnikama aktivnog učenja.

Česta pitanja

Koliko je skup ovaj proces prikupljanja?

Naš proces prikupljanja je dizajniran da bude skalabilan i može se primijeniti na skupove podataka od stotina milijardi primjera. Međutim, troškovi mogu varirati ovisno o veličini skupa podataka i kompleksnosti problema. U našim eksperimentima, uspjeli smo smanjiti veličinu podataka za treniranje s 100.000 na manje od 500 primjera za treniranje, što ukazuje na veliku učinkovitost procesa.

Može li se ovaj pristup primijeniti na druge domene?

Da, naš pristup je dizajniran da bude općenit i može se primijeniti na različite probleme klasifikacije u drugim domenama. Naši eksperimentalni rezultati pokazuju da je ovaj pristup promjenjiv i može se primijeniti na različite probleme klasifikacije u prostoru sigurnosti oglasa. U budućim radovima planiramo istražiti kako se ovaj pristup može primijeniti na druge domene.

Kako se poravnanje modela–čovjeka mjeri?

Poravnanje modela–čovjeka mjerimo koristeći Cohenov Kappa, mjera koliko dobro se dva nezavisna anotatora slažu, iznad onoga što bi se očekivalo od slučajnog slaganja. U našim eksperimentima, Cohenov Kappa se koristi kao indikator kvalitete za skupove podataka (uključujući procjenu modela tijekom procesa prikupljanja) i kao mjera performansi modela.

Koliko dugo traje ovaj proces prikupljanja?

Trajanje procesa prikupljanja ovisi o veličini skupa podataka i kompleksnosti problema. U našim eksperimentima, uspjeli smo dovršiti proces prikupljanja unutar nekoliko tjedana. Međutim, trajanje može varirati ovisno o specifičnim uvjetima i resursima.

Može li se ovaj pristup primijeniti na realne aplikacije?

Da, naš pristup je dizajniran da bude primjenjiv na realne aplikacije. Naši eksperimentalni rezultati pokazuju da je ovaj pristup promjenjiv i može se primijeniti na različite probleme klasifikacije u prostoru sigurnosti oglasa. U budućim radovima planiramo istražiti kako se ovaj pristup može primijeniti na realne aplikacije i kako se može poboljšati dodatnim tehnikama aktivnog učenja.