Strojno učenje Tehnologija Umjetna inteligencija

Prilagodba domena uz očuvanje privatnosti: Sinteza i federirano učenje s LLM-ovima za mobilne aplikacije

30.11.2025.

195

A detailed digital illustration shows a sleek smartphone in a hand displaying the Google Photos app with AI features for photo editing and intelligent search, set in a modern home office bathed in morning sunlight.

U današnje vrijeme, uspjeh modela strojnog učenja ne ovisi samo o velikim količinama podataka, već i o njihovoj kvaliteti. Paradigma pretreniranja na masivnim skupovima podataka prikupljenim s interneta, a zatim post-treniranja na manjim, visoko kvalitetnim skupovima, koristi se za obuku i velikih i malih jezičnih modela (LM). Za velike modele, post-treniranje je ključno za usklađivanje modela s namjerama korisnika, dok je post-treniranje malih modela za prilagodbu korisničkoj domeni pokazalo značajne rezultate, poput poboljšanja od 3% do 13% u ključnim proizvodnim metrima za aplikacije tipkanja na mobilnim uređajima.

Međutim, u složenim sustavima obuke LM-a postoje potencijalni rizici za privatnost, kao što je memoriranje osjetljivih korisničkih podataka. Sinteza podataka koja čuva privatnost pruža jedan od načina za pristup podacima o interakciji korisnika kako bi se poboljšali modeli, dok se istovremeno smanjuju rizici za privatnost. Uz mogućnosti generiranja velikih LLM-ova, sintetički podaci mogu se stvoriti kako bi oponašali korisničke podatke bez rizika od memoriranja. Ovi sintetički podaci mogu se koristiti u obuci modela na isti način kao i javni podaci, pojednostavljujući obuku modela koja čuva privatnost.

Aplikacija Gboard koristi i male LMs i LLM-ove kako bi poboljšala iskustvo tipkanja milijardi korisnika. Mali LMs podržavaju osnovne značajke poput tipkanja klizanjem, predikcije sljedeće riječi (NWP), pametnog sastavljanja, pametnog dovršavanja i preporuka; dok LLM-ovi podržavaju napredne značajke poput lektoriranja. U ovom članku dijelimo naše istraživanje tijekom proteklih nekoliko godina o generiranju i korištenju sintetičkih podataka za poboljšanje LMs za mobilne aplikacije tipkanja. Fokusiramo se na pristupe koji se pridržavaju principa privatnosti kao što su minimizacija podataka i anonimnost podataka, te pokazujemo kako oni imaju stvarni utjecaj na male i velike modele u Gboardu.

Učenje iz javnih i privatnih podataka u praksi

Naš blog iz 2024. godine raspravljao je o najboljim praksama obuke koja čuva privatnost na korisničkim podacima kako bi se prilagodili mali LMs domeni mobilnog tipkanja. Federirano učenje (FL) s diferencijalnom privatnošću (DP) primjenjuje se tako da korisnički podaci pohranjeni na vlastitom uređaju imaju samo minimalnu izloženost tijekom obuke i nisu memorirani od strane obučenih modela. Pretreniranje na web podacima poboljšava performanse privatnog post-treniranja, omogućujući implementaciju DP na razini korisnika u produkciji. U svrhu ovog članka, smatramo korisničke podatke generirane u aplikacijama kao privatne podatke, dok su dostupni web podaci i modeli trenirani na njima javne informacije (gdje primjenjujemo strategiju obrane privatnosti kako bismo ublažili zabrinutosti o mogućem curenju informacija iz javnih podataka).

Danas svi Gboard proizvodni LMs trenirani na korisničkim podacima koriste FL s DP jamstvima, uključujući ključne dekodere i modele NWP iz 2024. godine. Ovaj korak postignut je lansiranjem desetaka novih LMs treniranih s federiranim učenjem i diferencijalnom privatnošću (DP-FL LMs), zamjenjujući sve starije FL-only modele. Istraživački napredak nastavlja se brzo od 2024. godine: koristimo novi DP algoritam, BLT-DP-FTRL, koji nudi snažne trade-offe između privatnosti i korisnosti te jednostavnost korištenja u implementaciji; usvajamo SI-CIFG arhitekturu modela za učinkovitu obuku na uređaju i kompatibilnost s DP; te koristimo sintetičke podatke iz LLM-ova za poboljšanje pretreniranja. Posvećenost učenju koje čuva privatnost za poboljšanje malih LMs ne samo da je donijela značajne koristi korisnicima, već je i pomogla u poboljšanju LLM-ova u mobilnim aplikacijama za tipkanje, povezivanjem putem sintetičkih podataka.

Sintetički podaci putem javnih LLM-ova za poboljšanje privatne obuke

Opisujemo našu upotrebu sintetičkih podataka za pretreniranje malih LMs koji se kasnije post-treniraju s DP i FL u članku “Prompt Public Large Language Models to Synthesize Data for Private On-device Applications”. Koristimo moćne LLM-ove trenirane na javno dostupnim podacima za sintezu visokokvalitetnih i domena-specifičnih podataka koji oponašaju korisničke podatke bez pristupa bilo kojim privatnim korisničkim podacima. Ovaj pristup uključuje pažljivo dizajnirane upite za usmjeravanje LLM-ova (1) da filtriraju velike javne skupove podataka kako bi odabrali tekst koji je karakterističan za interakcije korisnika na mobilnim uređajima (primjer upita: “Je li ova tema vjerojatno raspravljana od strane ljudi preko njihovih mobilnih telefona?”); (2) da transformiraju odabrani tekst u razgovorni format (upit: “Pretvori ovaj članak u razgovor koji bi mogaoš poručiti preko svog mobilnog telefona.”); ili (3) da izravno generiraju tekst sličan razgovoru na temelju specifičnih i umjetnih scenarija (upit: “Zamisli da si korisnik koji poručuje obitelji preko mobilnog telefona. Generiraj chat.”).

Rezultantni sintetički podaci kombiniraju javno znanje koje su LLM-ovi naučili iz web podataka s domena-specifičnim znanjem programera o mobilnim aplikacijama. Sintetički podaci ne izlažu korisničke podatke koji nisu bili pristupani tijekom stvaranja, a mogu se pregledati prije nego što se koriste u obuci. Kao što je evaluirano u Gboardu, pretreniranje na ovim sintetičkim podacima postiže 22,8% relativnog poboljšanja u točnosti NWP u usporedbi s pretreninjem na osnovnim web podacima, a dosljedno postiže bržu konvergenciju i nešto višu točnost NWP u post-treniranju.

Zaključak

U zaključku, primjena sintetičkih podataka i federiranog učenja s diferencijalnom privatnošću predstavlja značajan korak naprijed u očuvanju privatnosti korisnika u mobilnim aplikacijama. Ovi pristupi omogućuju poboljšanje performansi modela bez ugrožavanja osjetljivih informacija, čime se osigurava sigurnije i učinkovitije korisničko iskustvo. Kako se tehnologija razvija, očekujemo daljnje inovacije u ovom području koje će dodatno unaprijediti metode obuke i očuvanja privatnosti.

Najčešća pitanja (FAQ)

Što je federirano učenje?

Federirano učenje je metoda obuke modela strojnog učenja koja omogućuje treniranje na decentraliziranim podacima, čime se smanjuje potreba za slanjem privatnih podataka na središnje poslužitelje.

Kako sintetički podaci pomažu u očuvanju privatnosti?

Sintetički podaci oponašaju stvarne korisničke podatke bez pristupa osjetljivim informacijama, čime se smanjuje rizik od memoriranja i curenja podataka.

Koje su prednosti korištenja LLM-ova u mobilnim aplikacijama?

LLM-ovi omogućuju napredne značajke poput lektoriranja i predikcije sljedeće riječi, čime se poboljšava korisničko iskustvo i učinkovitost tipkanja.

Kako se mjeri uspješnost modela tipkanja?

Uspješnost modela tipkanja mjeri se kroz ključne metrike poput točnosti predikcije sljedeće riječi i brzine konvergencije tijekom obuke.

Što je diferencijalna privatnost?

Diferencijalna privatnost je tehnika koja osigurava da rezultati analize podataka ne otkrivaju informacije o pojedinačnim korisnicima, čime se štiti privatnost podataka.