Premašivanje ograničenja milijardi parametara: Otključavanje sinteze…

01.02.2026.

196

Shanshan Wu, Inženjerica softvera, Google Research, 14. U ovom članku, istražit ćemo novu algoritmu za generiranje sintetičkih podataka koja omogućuje automatsko podudaranje distribucije tema, čineći ju dostupnom čak i za aplikacije s ograničenim resursima.

Shanshan Wu, Inženjerica softvera, Google Research, 14. kolovoza 2025.

U ovom članku, istražit ćemo novu algoritmu za generiranje sintetičkih podataka koja omogućuje automatsko podudaranje distribucije tema, čineći ju dostupnom čak i za aplikacije s ograničenim resursima. Ovaj pristup je revolucionaran jer se bori s osnovnim problemima privatnosti, izračuna i korisnosti, čime se postiže balans između kvalitete sintetičkih podataka i resursa koji se troše na njihovu generaciju.

Uvod u problematiku

Generiranje velikih količina sintetičkih podataka s diferencijalnom privatnošću (DP) je izuzetno izazovno. Osnovni problem leži u tome što jakim jamstvima privatnosti može se oštetiti kvaliteta sintetičkih podataka ili je potrebno velikih količina izračuna. Popularno rješenje je privatno finetuniranje velikih jezika modela (LLM) veličine milijardi parametara na “privatnim podacima” (standardni termin za skup podataka na kojem se planira jamstvo privatnosti), a zatim uzorkovanje iz finetuniranog modela za generiranje sintetičkih podataka. Ovaj pristup je izuzetno računski zahtjevan i stoga nedostupan za aplikacije s ograničenim resursima.

Nedavno su algoritmi Aug-PE i Pre-Text istražili generiranje sintetičkih podataka koji zahtijevaju samo pristup LLM API-ju. Međutim, ovi algoritmi često ovisno o ručnom unosa promptova za generiranje početnog skupa podataka i neefikasni su u korištenju privatnih informacija u njihovom iterativnom procesu odabira podataka.

U radu “Synthesizing Privacy-Preserving Text Data via Fine-Tuning Without Fine-Tuning Billion-Scale LLMs”, predstavljenom na ICML 2025, predlažemo CTCL (Data Synthesis with ConTrollability and CLustering), novu okvirnu strukturu za generiranje sintetičkih podataka s jamstvom privatnosti bez finetuniranja milijardu parametara LLMs ili specifičnog prompt engineeringa domene. CTCL koristi model s 140 milijuna parametara, čineći ga praktičnim za aplikacije s ograničenim resursima. Kroz uvjetovanje na informacijama o temi, generirani sintetički podaci mogu podudarati distribuciju tema iz privatne domene. Na kraju, za razliku od algoritma Aug-PE, CTCL omogućuje generiranje neograničenog broja sintetičkih uzoraka bez dodatnih troškova privatnosti. Evaluirao smo CTCL na raznovrsnim skupovima podataka, pokazavši da konsistentno nadmašuje bazne linije, posebno pod jakim jamstvima privatnosti. Studije o ablaciji potvrdile su ključnu ulogu pretraininga i uvjetovanja na temelju ključnih riječi, dok su eksperimenti također pokazali poboljšanu skalabilnost CTCL-a u odnosu na algoritam Aug-PE.

Razvoj okvirne strukture za sintezu podataka

Okvirna struktura CTCL dizajnirana je za generiranje visokokvalitetnih sintetičkih podataka iz privatnih skupova podataka, pri čemu se privatnost postiže razlaganjem procesa u tri glavna koraka. Prije nego što se upustimo u detalje, bitno je razumjeti dvije osnovne komponente koje čine ovu okvirnu strukturu: CTCL-Topic i CTCL-Generator.

Osnovne komponente

CTCL-Topic je univerzalni model tema koji hvata visoko razinu tema skupa podataka, dok je CTCL-Generator moćan jezik model koji može stvoriti dokumente na temelju specifičnih ključnih riječi. Ove dvije komponente, razvijene koristeći velike javne korpuse, predstavljaju osnovu za učenje različitih privatnih domena i generiranje sintetičkih podataka iz njih.

Korak 1: Razvoj CTCL-Topic i CTCL-Generator

Obe komponente razvijene su samo jednom koristeći velike javne korpuse i mogu se kasnije koristiti za učenje različitih privatnih domena. CTCL-Topic je model tema izvučen iz Wikipedije, raznovrsnog korpusa koji sadrži oko 6 milijuna dokumenata. Slijedimo BERTopic da ugradimo svaki dokument, grupiramo ih u oko 1K klastera (tj. 1K tema) i predstavljamo svaki klaster s 10 ključnih riječi. CTCL-Generator je lagani (140M-parametarski) uvjetni jezik model koji prihvaća slobodne opisne ulaze dokumenata (npr. tip dokumenta, ključne riječi itd.) i generira dokumente koji zadovoljavaju ulazne uvjete. Za konstrukciju pretraining podataka, za svaki dokument u SlimPajama, podučavamo Gemma-2-2B da “Opišite dokument iz više aspekata.” Rezultat je skup podataka od 430M parova opis-dokument. Zatim koristimo ovaj skup podataka za kontinuirano pretraining na vrhu BART-base (140M-parametarski jezik model), što rezultira CTCL-Generatorom.

Korak 2: Učenje privatne domene

Zatim koristimo CTCL-Topic da uhvatimo visoko razinu informacije o distribuciji iz cijelog privatnog korpusa. To se postiže prikupljanjem privatnog histograma koji predstavlja distribuciju tema privatnih podataka, tj. postotak svake teme u privatnim podacima. Ovaj histogram tema bit će kasnije korišten u Koraku 3 za uzorkovanje. Prikupljanjem histograma tema, svakom dokumentu u privatnom skupu podataka pridružena je tema. Zatim pretvaramo privatni skup podataka u skup podataka od parova ključnih riječi i dokumenata, 10 ključnih riječi za svaki dokument dobiveno iz njihovih korelacija.

Korak 3: Generiranje sintetičkih podataka

U ovom koraku, CTCL-Generator koristi informacije o temi i ključnim riječima da generira sintetičke dokumente koji podudaraju distribuciju tema iz privatne domene. Ovaj proces ponavlja se dok se ne generira dovoljan broj sintetičkih dokumenata koji podudaraju distribuciju tema iz privatne domene. Na kraju, sintetički dokumenti se čuvaju u skupu podataka koji se može koristiti za treniranje modela bez rizika od izlaganja privatnim podacima.

Zaključak

CTCL predstavlja revolucionarni pristup generiranju sintetičkih podataka s jamstvom privatnosti. Njegova sposobnost da generira visokokvalitetne sintetičke podatke bez finetuniranja milijardu parametara LLMs čini ga izuzetno praktičnim za aplikacije s ograničenim resursima. Usporedno s drugim algoritmima, CTCL pokazao je izuzetnu skalabilnost i efikasnost, čineći ga idealnim rješenjem za generiranje sintetičkih podataka u različitim scenarijima.

Česta pitanja

1. Koje su prednosti korištenja CTCL-a u odnosu na druge algoritme?

CTCL pruža nekoliko ključnih prednosti. Najvažnije je njegova sposobnost da generira sintetičke podatke bez finetuniranja milijardu parametara LLMs, čime se smanjuje računski zahtjev i trošak. Također, CTCL omogućuje generiranje neograničenog broja sintetičkih uzoraka bez dodatnih troškova privatnosti, što ga čini izuzetno fleksibilnim.

2. Može li CTCL biti korišten u različitim domenama?

Da, CTCL je dizajniran da radi u raznovrsnim domenama. Njegova sposobnost da se prilagođava različitim temama i distribucijama podataka čini ga izuzetno univerzalnim rješenjem za generiranje sintetičkih podataka.

3. Koliko je efikasan CTCL u usporedbi s drugim algoritmima?

U našim eksperimentima, CTCL je pokazao izuzetnu efikasnost i skalabilnost u usporedbi s drugim algoritmima. Njegova sposobnost da generira visokokvalitetne sintetičke podatke pod jakim jamstvima privatnosti čini ga izuzetno konkurentnim.

4. Koje su primjene CTCL-a u stvarnom svijetu?

CTCL može pronaći primjenu u raznovrsnim aplikacijama, uključujući, ali ne ograničavajući se na, generiranje sintetičkih podataka za treniranje modela bez izlaganja privatnim podacima, simulacije i testiranja u različitim scenarijima, te generiranje sintetičkih podataka za analizu i istraživanje.

5. Može li CTCL biti prilagođen za specifične potrebe korisnika?

Da, CTCL je dizajniran da se prilagođava specifičnim potrebama korisnika. Njegova fleksibilnost i sposobnost da se prilagođava različitim temama i distribucijama podataka čine ga izuzetno prilagodljivim za različite scenarije i potrebe.