Meta istraživači su predstavili Perception Encoder Audiovisual, PEAV, kao novu porodicu enkodera za zajedničko razumijevanje audio i video sadržaja. Model uči poravnate audio, video i tekstualne reprezentacije u jednom ugrađenom prostoru koristeći kontrastivno učenje na velikoj skali od oko 100 milijuna audio-video parova s tekstualnim opisima.
Od Perception Encodera do PEAV
Perception Encoder, PE, je jezgra vizualnog stoga u Metaovom projektu Perception Models. To je porodica enkodera za slike, video i audio koji postiže stanje umjetnosti na mnogim vizualnim i audio benchmarkima koristeći unificirani recept za kontrastivno pretvaranje. PE jezgra nadmašuje SigLIP2 na zadacima slika i InternVideo2 na zadacima video. PE lang pokreće Perception Language Model za multimodalno razmišljanje, dok je PE spatial prilagođen za gusto prediktivne zadatke kao što su detekcija i procjena dubine.
PEAV se temelji na ovom temeljnom stogu i proširuje ga na potpuno poravnanje audio-video-teksta. U Perception Models repozitoriju, PE audio visual je naveden kao grana koja ugrađuje audio, video, audio-video i tekst u jedan zajednički ugrađeni prostor za međumodalno razumijevanje.
Arhitektura, odvojeni tornjevi i fuzija
Arhitektura PEAV sastoji se od enkodera okvira, video enkodera, audio enkodera, audio-video fuzionog enkodera i tekstualnog enkodera.
- Video put koristi postojeći PE enkodera okvira na RGB okvirima, a zatim primjenjuje temporalni video enkodera na vrh okvirnih značajki.
- Audio put koristi DAC VAE kao kodek za pretvaranje sirovog valnog oblika u diskretne audio tokene s fiksnim okvirnim stopom, otprilike jedan ugrađeni svaki 40 milisekundi.
Ovi tornjevi hrane audio-video fuzioni enkodera koji uči zajedničku reprezentaciju za oba toka. Tekstualni enkodera projekcija tekstualnih upita u nekoliko specijaliziranih prostora. Na praksi, to vam daje jedan zajednički temeljni stog koji se može upitati na mnoge načine. Možete dohvatiti video iz teksta, audio iz teksta, audio iz video ili dohvatiti tekstualne opise uslovljene na bilo koju kombinaciju modaliteta bez ponovnog obučavanja zadataka specifičnih glava.
Podatkovni stroj, sintetički audio-video opisi na velikoj skali
Istraživački tim je predložio dvostupanjski audio-video podatkovni stroj koji generira visoke kvalitete sintetičke opise za neoznačene klipove. Tim opisuje cjevovod koji prvo koristi nekoliko slabih audio opisnih modela, njihove povjerenja ocjene i odvojene video opisnike kao ulaz u veliki jezik model. Ovaj LLM proizvodi tri vrste opisa po klipu, jedan za audio sadržaj, jedan za vizualni sadržaj i jedan za zajednički audio-video sadržaj. Inicijalni PEAV model se trenira na ovom sintetičkom nadzoru.
U drugom stupnju, ovaj inicijalni PEAV se para s Perception Language Model dekoderom. Zajedno oni usavršavaju opise kako bi bolje iskoristili audio-video odgovore. Dvostupanjski stroj daje pouzdane opise za oko 100 milijuna audio-video parova i koristi oko 92 milijuna jedinstvenih klipova za pretvaranje prvog stupnja i 32 milijuna dodatnih jedinstvenih klipova za usavršavanje drugog stupnja.
U usporedbi s ranijim radovima koji često fokusiraju na govor ili uski zvukove domene, ovaj korpus je dizajniran da bude ravnotežen između govora, općenitih zvukova, glazbe i raznolikih video domena, što je važno za općenito audio-video dohvaćanje i razumijevanje.
Kontrastivni cilj kroz deset parova modaliteta
PEAV koristi sigmoidnu kontrastivnu gubitak kroz audio, video, tekst i fuzirane reprezentacije. Istraživački tim objašnjava da model koristi osam kontrastivnih parova, uključujući audio-audio, audio-video, video-video, video-tekst, audio-tekst, video-audio, audio-audio-video i audio-video-tekst. Ovaj pristup omogućuje modelu da učvrsti veze između različitih modaliteta, što rezultira boljim razumijevanjem i dohvaćanjem sadržaja.
Zaključak
Meta AI Open-Sourced Perception Encoder Audiovisual (PEAV) predstavlja značajni korak unaprijed u području multimodalnog razumijevanja. Ovaj model omogućuje zajedničko razumijevanje audio, video i tekstualnih sadržaja u jednom ugrađenom prostoru, koristeći kontrastivno učenje na velikoj skali. PEAV koristi inovativnu arhitekturu s odvojenim tornjevima i fuzionim enkodera, dok dvostupanjski podatkovni stroj generira visoke kvalitete sintetičke opise. Ovaj pristup omogućuje modelu da se upita na mnoge načine bez ponovnog obučavanja specifičnih zadataka, što ga čini vrlo fleksibilnim i korisnim za različite aplikacije.
FAQ
Što je PEAV i zašto je važan?
PEAV je nov porodica enkodera koja omogućuje zajedničko razumijevanje audio, video i tekstualnih sadržaja u jednom ugrađenom prostoru. Važan je jer omogućuje multimodalno razumijevanje, što je korisno za različite aplikacije kao što su preporuke video sadržaja, pretraživanje multimedija i automatsko generiranje opisa.
Kako PEAV funkcionira?
PEAV koristi arhitekturu s odvojenim tornjevima za audio i video, a zatim ih fuzionira u zajednički ugrađeni prostor. Koristi kontrastivno učenje na velikoj skali podataka kako bi učvrstio veze između različitih modaliteta.
Koja je prednost korištenja PEAV?
Prednost PEAV je njegova fleksibilnost. Može se upitati na mnoge načine bez ponovnog obučavanja specifičnih zadataka, što ga čini vrlo korisnim za različite aplikacije.
Koji su izazovi povezani s korištenjem PEAV?
Glavni izazov je generiranje visokokvalitetnih sintetičkih opisa za neoznačene klipove. Meta je riješila ovaj problem koristeći dvostupanjski podatkovni stroj koji koristi slabije modele i veliki jezik model za generiranje opisa.
Kako PEAV može poboljšati moju aplikaciju?
PEAV može poboljšati vašu aplikaciju omogućujući multimodalno razumijevanje. Možete koristiti ovaj model za preporuke video sadržaja, pretraživanje multimedija i automatsko generiranje opisa, što može značajno poboljšati korisničko iskustvo.


![ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno] 5 chatgpt5](https://umjetnai.com/wp-content/uploads/2025/08/chatgpt5-360x180.webp)






