Zaštita privatnih podataka na velikoj razini s diferencijalno…

01.02.2026.

195

Justin Y Chen, student istraživač, i Morteza Zadimoghaddam, istraživački znanstvenik, Google Research 20. Predstavljamo nove algoritme za očuvanje privatnosti korisnika u objavama podataka, poboljšavajući trenutno stanje u diferencijalno privatnoj selekciji particija.

Justin Y Chen, student istraživač, i Morteza Zadimoghaddam, istraživački znanstvenik, Google Research
20. kolovoza 2025.

Predstavljamo nove algoritme za očuvanje privatnosti korisnika u objavama podataka, poboljšavajući trenutno stanje u diferencijalno privatnoj selekciji particija. Brzi linkovi za članak

U današnjem svijetu umjetne inteligencije i strojnog učenja, velike korisničke skupove podataka su neprocjenjivi za napredak AI i ML modela. Oni pokreću inovacije koje direktno koristima poboljšavaju usluge, preciznije predviđanja i personalizirane iskustva. Suradnja i dijeljenje tih skupova podataka može ubrzati istraživanje, potaknuti nove primjene i doprinijeti širem znanstvenom zajednici. Međutim, iskorištavanje tih moćnih skupova podataka dolazi s potencijalnim rizicima privatnosti podataka. Proces identificiranja specifičnog, značajnog podskupa jedinstvenih stavki koje se mogu sigurno dijeliti iz ogromne kolekcije na temelju toga kako često ili istaknuto pojavljuju se u mnogim pojedinačnim doprinosima (kao što je pronalazak svih uobičajenih riječi korištenih u velikom skupu dokumenata) zove se “diferencijalno privatna (DP) selekcija particija”. Primjenom diferencijalne privatnosti u selekciji particija, moguće je izvršiti tu selekciju na način koji sprečava bilo kome da sazna je li pojedinačni korisnikov podatak doprinio određenoj stavci u konačnom popisu. To se postiže dodavanjem kontroliranog šuma i odabirom samo onih stavki koje su dovoljno česte čak i nakon što se šum uključi, osiguravajući individualnu privatnost. DP je prvi korak u mnogim važnim zadacima znanosti podataka i strojnog učenja, uključujući izvlčenje vokabulara (ili n-grama) iz velikog privatnog korpusa (neophodan korak mnogih tekstualnih analiza i modeliranja jezika), analizu podataka u toku na način koji štiti privatnost, dobivanje histogramata nad korisničkim podacima i povećanje učinkovitosti u privatnom finom podešavanju modela.

U kontekstu masivnih skupova podataka kao što su korisnička upita, paralelni algoritam je ključan. Umjesto obrade podataka po komadu (kao što bi to učinio sekvencijalni algoritam), paralelni algoritam raspoređuje problem na mnoge manje dijelove koji se mogu istovremeno izračunati na više procesora ili strojeva. Ova praksa nije samo za optimizaciju; to je fundamentalna nužnost kada se radi s razmjerom modernih podataka. Paralelizacija omogućuje obradu ogromnih količina informacija odjednom, omogućujući istraživačima da rukuju skupovima podataka s stotinama milijardi stavki. Time je moguće postići robustne garancije privatnosti bez žrtvovanja korisnosti koju se dobiva iz velikih skupova podataka.

U našoj nedavnoj publikaciji “Scalable Private Partition Selection via Adaptive Weighting” koja je objavljena na ICML2025, predstavljamo učinkovit paralelni algoritam koji omogućuje primjenu DP selekcije particija na različite objave podataka. Naš algoritam pruža najbolje rezultate među paralelnim algoritmima i skalira do skupova podataka s stotinama milijardi stavki, čak do tri reda veličine veće od onih koje su analizirali prethodni sekvencijalni algoritmi. Da bismo potaknuli suradnju i inovacije u istraživačkoj zajednici, otvorili smo DP selekciju particija na GitHubu.

Kako algoritam radi

Cilj DP selekcije particija je maksimalizirati broj jedinstvenih stavki odabranih iz unije skupova podataka, dok se striktno očuvava DP na razini korisnika. To znači da se vrlo popularne stavke, koje pripadaju mnogim korisnicima, često mogu sigurno očuvati za daljnje računske zadatke, dok se stavke koje pripadaju samo jednom korisniku neće uključiti. Dizajner algoritma mora ciljati optimalan kompromis između privatnosti i korisnosti prilikom odabira stavki iz skupa podataka, poštujući zahtjeve diferencijalne privatnosti. Standardni paradigma: Težina, šum i filter

Konvencionalni pristup diferencijalno privatnoj selekciji particija uključuje tri glavna koraka: Težina, šum i filter.

Težina

Za svaku stavku izračunava se “težina”, obično predstavljena frekvencijom stavke ili nekim agregatom preko korisnika. To formira histogram težina. Važan zahtjev za privatnost je “niska osjetljivost”, što znači da je ukupna težina koju doprinosi bilo koji korisnik ograničena. U standardnom neadaptivnom okruženju, korisnici dodjeljuju težine svojim stavkama nezavisno od toga što doprinose drugi korisnici (npr. bazna linija težine Gaussove).

Šum

Da bi se osiguralo DP, dodaje se slučajni šum (npr. Gaussov šum s određenom standardnom devijacijom) na izračunatu težinu svake stavke. To zamućuje točne brojeve, sprečavajući napadača da zaključi prisutnost pojedinca ili njegov podatak.

Filter

Na kraju, primjenjuje se prag određen DP parametrima. Samo stavke čije šumne težine premašuju ovaj prag uključuju se u konačni izlaz. Paradigma težine, šuma i filtera.

U svim grafikonima, x-os je stavke (A–F) a y-os je težina dodijeljena stavkama. Algoritam prvo izračunava histogram težina nad stavkama (lijevo), a zatim dodaje šum (sredina) i primjenjuje prag (desno).

Zaključak

Diferencijalno privatna selekcija particija predstavlja važan korak u zaštiti privatnosti podataka na velikoj razini. Naš algoritam, predstavljen u “Scalable Private Partition Selection via Adaptive Weighting”, pruža učinkovito rješenje koje se može primijeniti na različite objave podataka, osiguravajući robustne garancije privatnosti bez žrtvovanja korisnosti. Otvoreni smo za suradnju i inovacije u istraživačkoj zajednici, pa ne oklevajte da istražite naš rad na GitHubu.

Česta pitanja

1. Kako se razlikuje diferencijalno privatna selekcija particija od drugih metoda zaštite privatnosti?

Diferencijalno privatna selekcija particija se razlikuje od drugih metoda zaštite privatnosti po tome što se fokusira na odabir particija podataka na način koji štiti privatnost pojedinačnih korisnika. To se postiže dodavanjem šuma i filtriranjem stavki na temelju njihovih težina.

2. Može li se ovaj algoritam primijeniti na sve vrste podataka?

Da, naš algoritam je dizajniran da se može primijeniti na različite vrste podataka, uključujući tekstualne, numeričke i grafičke podatke. Ključ je u adaptivnom podešavanju težina i šuma kako bi se osigurala privatnost.

3. Koliko je učinkovit ovaj algoritam u poređenju s postojećim rješenjima?

Naš algoritam pruža najbolje rezultate među paralelnim algoritmima i skalira do skupova podataka s stotinama milijardi stavki, čak do tri reda veličine veće od onih koje su analizirali prethodni sekvencijalni algoritmi. To ga čini izuzetno učinkovitim za velike razmjere podataka.