Umjetna inteligencija: učenje bez narušavanja privatnosti

Svaki put kad otkucate poruku na mobitelu, iza pozadinske tipkovnice se odvija složena igra prediktora riječi. Tehnologija koja to omogućuje temelji se na velikim jezičnim modelima, ali kako se ti modeli treniraju bez da otkriju vaše privatne podatke? U ovom članku istražujemo proces predtreniranja, dodatnog prilagođavanja i načine na koje se štiti privatnost korisnika.

Uvod

Umjetna inteligencija postala je sastavni dio svakodnevnog života – od glasovnih asistenta do automatskog ispravljanja teksta. Za rad ovih sustava ključna je sposobnost modela da predvidi sljedeću riječ ili ispravi grešku. To se postiže treniranjem na ogromnim skupovima podataka, ali kada se ti podaci sastoje od stvarnih poruka korisnika, pojavljuje se pitanje privatnosti. Kako stvoriti model koji je učinkovit, a istovremeno ne izlaže osjetljive informacije?

Predtreniranje i dodatno prilagođavanje

Proces treniranja je podijeljen na dvije glavne faze. Prva, predtreniranje, obavlja se na javno dostupnom tekstu – blogovima, vijestima, knjigama i drugim izvorima. Ova faza daje modelu opću razumijevanje jezika, gramatike i sintakse. Druga faza, dodatno prilagođavanje, usmjerena je na specifične zadatke, poput tipkanja na mobilnim uređajima. U ovoj fazi model se trenira na manjem, ali vrijednijem skupu podataka koji sadrži stvarne interakcije korisnika, uključujući sleng, tipfelere i kontekstualne izraze.

Za male modele koji rade na samom uređaju, dodatno prilagođavanje može poboljšati točnost predviđanja sljedeće riječi za 3 %–13 %. Za veće modele, koji se koriste za napredne funkcije poput automatskog ispravljanja, dodatno prilagođavanje osigurava da model razumije specifične obrasce korisnika bez potrebe za stalnim pristupom internetu.

Zaštita privatnosti: sintetički podaci, federirano učenje i diferencijalna privatnost

Treniranjem na stvarnim porukama postoji rizik da model memorira osjetljive informacije i slučajno ih reproduktira u svojim odgovorima. Da bi se taj rizik smanjio, tvrtke koriste kombinaciju sljedećih tehnika:

Sintetički podaci – Umjesto stvarnih poruka, model trenira na umjetno generiranim primjerima koji odražavaju stil i strukturu jezika, ali ne sadrže osobne podatke.
Federirano učenje (FL) – Uređaj korisnika lokalno izračunava promjene modela na temelju vlastitih podataka, a samo agregirani rezultati se šalju centralnom serveru. Osnovni podaci nikada ne napuštaju uređaj.
Diferencijalna privatnost (DP) – Matematička metoda koja dodaje šum u agregirane podatke, čime se otežava rekonstrukcija pojedinačnih unosa iz konačnog modela.

Ova tri pristupa zajedno stvaraju robustan okvir koji omogućuje modelima da uče iz korisničkih podataka bez izlaganja privatnosti. Google je, na primjer, implementirao ovaj sustav u Gboard tipkovnici, čime je postigao značajna poboljšanja u točnosti predviđanja riječi i ispravci grešaka, a istovremeno je smanjio rizik od curenja pod

Umjetna inteligencija: učenje bez narušavanja privatnosti

Uvod

Predtreniranje i dodatno prilagođavanje

Zaštita privatnosti: sintetički podaci, federirano učenje i diferencijalna privatnost

Odgovori Otkaži odgovor