Real-time Generative AI Efekti na YouTube Shorts: Tehnologija iza…

01.02.2026.

199

U svijetu digitalne zabave, YouTube Shorts je postalo popularno mjesto za kreiranje kratkih, zanimljivih videa. Ali kako se ostvaruju ovi čarobni real-time generative AI efekti na mobilnim uređajima? U ovom članku, Andrey Vakunov, Software Engineer iz Google Cloud, i Adam Svystun, Software Engineer iz YouTube, detaljno objasnjavaju tehnologiju koja omogućuje ovakve čuda.

Efekti su ključni dio zabave na YouTube Shorts

Efekti su ključni dio zabave na YouTube Shorts, ali kako ih učiniti čarobnim? Da bi se efekti osjećali kao magija, moraju raditi u real-timeu dok kreator snima. Ovo predstavlja izazov: kako primijeniti najnovije mogućnosti velikih generativnih AI modela, kao što je prijenos karikatura, na kreatorove telefone?

Rješenje: Pipeline za Distilaciju Znanja

Naš rješenje je pipeline koji distilira sposobnost velikog modela u mnogo manji model fokusiran na jednu zadatak. Ovo suženje opsega stvara kompaktan i efikasan model koji se može izvršavati direktno na telefonu, obrađujući video frame po frame. Koristeći ovu metodu, pokrenuli smo preko 20 real-time efekata za YouTube kreatore na Shorts. U ovom članku ćemo detaljno objasniti kako to ostvarujemo, uključujući prikupljanje podataka, treniranje i postavljanje na uređaj.

Real-time Transformacija Video Strima

Real-time transformacija video strima koristeći izbor real-time generativnih AI efekata. S lijeva na desno: original, on-device makeup “Pink dewy”, “Cartoon” i “Toon” efekt.

Osnove našeg rada su visoko kvalitetni podaci

Sve počinje s podacima. Počeli smo graditi skup podataka lica koristeći ispravno licencirane slike. Pažljivo smo filtrirali naše skupove podataka kako bismo bili sigurni da su raznovrsni i jednako raspoređeni po različitim spolovima, dobima i bojama kože (mjereno po Monk Skin Tone Scale) kako bismo stvorili efekte koji rade za sve.

Naš pristup se temelji na distilaciji znanja

Naš pristup se temelji na konceptu zvanom distilacija znanja, koji koristi “učitelj-student” metodu treniranja modela. Počnemo s “učiteljem” – velikim, moćnim, pretreniranim generativnim modelom koji je stručan za stvaranje željenog vizualnog efekta, ali je previše spor za real-time upotrebu. Tip učiteljskog modela varira ovisno o cilju. Inicijalno smo koristili prilagođeni trenirani StyleGAN2 model, koji je treniran na našem kuraćiranom skupu podataka za real-time lica efekata. Ovaj model mogao se upariti s alatima poput StyleCLIP, koji su mu omogućili manipulaciju lica temeljem tekstualnih opisa. Ovo je pružilo jaku osnovu.

Prelazak na naprednije generativne modele

Kako je naš projekt napredovao, prelazili smo na naprednije generativne modele poput Google DeepMind’s Imagen. Ovaj strateški pomak značajno je poboljšao naše mogućnosti, omogućivši višu vjerodostojnost i raznovrsnost slika, veći umjetnički kontrolu i širi raspon stilova za naše generativne AI efekte na uređaju.

Student Model

“Student” je model koji konačno radi na korisnikovom uređaju. Mora biti mali, brz i efikasan. Dizajnirali smo student model s UNet-om baziranom arhitekturom, koja je odlična za zadatke slika-do-slike. Koristi MobileNet kao svoj enkoder, dizajn poznat po svojoj performansi na mobilnim uređajima, uparen s dekoderom koji koristi MobileNet blokove.

Distilacija: Iterativno podučavanje studenta

Da bismo ostvarili produkcijske efekte, razvili smo robustnu metodu treniranja koja obrađuje ograničenja sintetičke distilacije podataka, koja često dovodi do artefakata i smanjene visoke frekvencije detalja. Naš pristup koristi realne podatke za generiranje “parova slika” i treniranje student modela za efikasniji pretraživanje hiperparametara. Proces distilacije za treniranje manjeg student modela uključuje dva ključna koraka:

Generacija Podataka

Procesiramo veliki skup slika kroz učitelj model da bismo stvorili tisuće “prije i poslije” parova slika. Tijekom generiranja, uključujemo augmentacije, kao što su dodavanje AR naočala i sunčana naočala, i okluzija s sintetičkim rukama. Također koristimo Pivotal Tuning Inversion da bismo sačuvali korisničku identitet.

Treniranje Studenta

Student model se zatim trenira na ovim parovima slika. Koristimo kombinaciju L1, LPIPS, Adaptive i Adversarial loss funkcija da bismo osigurali da je izlaz studenta ne samo numerički točan, nego i vizualno realan i estetski privlačan. Također koristimo neuralnu pretragu arhitekture da bismo optimizirali parametre arhitekture modela (kao što su “depth multiplier” i “width multiplier”) kako bismo identificirali efikasne arhitekture prilagođene različitim slučajevima i vrstama efekata.

Visoko razina shema distilacije pipeline-a

Visoko razina shema distilacije pipeline-a za “Never Blink” efekt.

Kritičan izazov: Sačuvanje korisničkog identiteta

“Uređivanje” slike događa se u “latent” prostoru, koji je komprimirana numerička reprezentacija slike gdje su kodirani značajni karakteristike. Proces pretvaranja sirovog piksela u latentnu reprezentaciju zove se “inverzija”. Važan izazov u generativnim modelima slika-do-slike za lica je sačuvanje identiteta osobe jer efekt regenerira cijeli okvir. Naivan pristup može lako odvesti do gubitka identiteta.

Pivotal Tuning Inversion

Pivotal Tuning Inversion je tehnika koju smo razvili da bismo riješili ovaj problem. Ova metoda omogućava da se identitet korisnika sačuva tijekom primjene efekata. Koristimo Pivotal Tuning Inversion da bismo generirali latentne reprezentacije koje su bliske originalnim slikama, ali koje također omogućavaju primjenu željenih vizualnih efekata.

Zaključak

Real-time generative AI efekti na YouTube Shorts predstavljaju revolucionarnu tehnologiju koja omogućuje kreatorima da stvore čarobne videe bez ograničenja. Koristeći distilaciju znanja i optimizaciju na uređaju, YouTube je uspio prenijeti moć velikih modela na mobilne uređaje, pružajući korisnicima neprocjenjivu zabavu.

Česta Pitanja

Koji su najpopularniji real-time efekti na YouTube Shorts?

Najpopularniji real-time efekti na YouTube Shorts uključuju “Pink dewy”, “Cartoon” i “Toon” efekte, kao i “Never Blink” efekt koji sprečava da korisnik zamrši oči.

Kako se podaci prikupljaju za treniranje modela?

Podaci se prikupljaju koristeći ispravno licencirane slike lica. Pažljivo se filtriraju kako bi bili raznovrsni i jednako raspoređeni po spolovima, dobima i bojama kože.

Koliko vremena je potrebno za treniranje modela?

Vrijeme treniranja modela varira ovisno o kompleksnosti efekta i veličini skupa podataka. Za jednostavne efekte, treniranje može potrajati nekoliko sati, dok za složenije efekte može potrajati i nekoliko dana.

Kako se osigurava da efekti rade na svim uređajima?

Efekti su optimizirani za rad na mobilnim uređajima koristeći MobileNet arhitekturu. Također se koriste tehnike kao što je Pivotal Tuning Inversion da bismo osigurali da efekti rade na svim uređajima bez gubitka kvalitete.

Može li se koristiti ova tehnologija za druge platforme?

Da, ova tehnologija može se koristiti za druge platforme koje podržavaju real-time video procesiranje. however, specificna implementacija može varirati ovisno o platformi i uređajima.