Računalni vid i slušno prepoznavanje Tehnologija Umjetna inteligencija

Meta AI Open-Sourced Perception Encoder Audiovisual (PE-AV)

22.12.2025.

199

Meta istraživači su predstavili Perception Encoder Audiovisual, PEAV, kao novu porodicu enkodera za zajedničko razumijevanje audio i video sadržaja. Model uči poravnate audio, video i tekstualne reprezentacije u jednom ugrađenom prostoru koristeći kontrastivno učenje na velikoj skali od oko 100 milijuna audio-video parova s tekstualnim opisima.

Meta istraživači su predstavili Perception Encoder Audiovisual, PE_AV, kao novu porodicu enkodera za zajedničko razumijevanje audio i video sadržaja. Model uči poravnate audio, video i tekstualne reprezentacije u jednom ugrađenom prostoru koristeći kontrastivno učenje na velikoj skali od oko 100 milijuna audio-video parova s tekstualnim opisima.

Od Perception Encodera do PE_AV

Perception Encoder, PE, je jezgra vizualnog stoga u Metaovom projektu Perception Models. To je porodica enkodera za slike, video i audio koji postiže stanje umjetnosti na mnogim vizualnim i audio benchmarkima koristeći unificirani recept za kontrastivno pretvaranje. PE jezgra nadmašuje SigLIP2 na zadacima slika i InternVideo2 na zadacima video. PE lang pokreće Perception Language Model za multimodalno razmišljanje, dok je PE spatial prilagođen za gusto prediktivne zadatke kao što su detekcija i procjena dubine.

PE_AV se temelji na ovom temeljnom stogu i proširuje ga na potpuno poravnanje audio-video-teksta. U Perception Models repozitoriju, PE audio visual je naveden kao grana koja ugrađuje audio, video, audio-video i tekst u jedan zajednički ugrađeni prostor za međumodalno razumijevanje.

ww.. — https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/

Arhitektura, odvojeni tornjevi i fuzija

Arhitektura PE_AV sastoji se od enkodera okvira, video enkodera, audio enkodera, audio-video fuzionog enkodera i tekstualnog enkodera.

Video put koristi postojeći PE enkodera okvira na RGB okvirima, a zatim primjenjuje temporalni video enkodera na vrh okvirnih značajki.
Audio put koristi DAC VAE kao kodek za pretvaranje sirovog valnog oblika u diskretne audio tokene s fiksnim okvirnim stopom, otprilike jedan ugrađeni svaki 40 milisekundi.

Ovi tornjevi hrane audio-video fuzioni enkodera koji uči zajedničku reprezentaciju za oba toka. Tekstualni enkodera projekcija tekstualnih upita u nekoliko specijaliziranih prostora. Na praksi, to vam daje jedan zajednički temeljni stog koji se može upitati na mnoge načine. Možete dohvatiti video iz teksta, audio iz teksta, audio iz video ili dohvatiti tekstualne opise uslovljene na bilo koju kombinaciju modaliteta bez ponovnog obučavanja zadataka specifičnih glava.

ww.. — https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/

Podatkovni stroj, sintetički audio-video opisi na velikoj skali

Istraživački tim je predložio dvostupanjski audio-video podatkovni stroj koji generira visoke kvalitete sintetičke opise za neoznačene klipove. Tim opisuje cjevovod koji prvo koristi nekoliko slabih audio opisnih modela, njihove povjerenja ocjene i odvojene video opisnike kao ulaz u veliki jezik model. Ovaj LLM proizvodi tri vrste opisa po klipu, jedan za audio sadržaj, jedan za vizualni sadržaj i jedan za zajednički audio-video sadržaj. Inicijalni PE_AV model se trenira na ovom sintetičkom nadzoru.

U drugom stupnju, ovaj inicijalni PE_AV se para s Perception Language Model dekoderom. Zajedno oni usavršavaju opise kako bi bolje iskoristili audio-video odgovore. Dvostupanjski stroj daje pouzdane opise za oko 100 milijuna audio-video parova i koristi oko 92 milijuna jedinstvenih klipova za pretvaranje prvog stupnja i 32 milijuna dodatnih jedinstvenih klipova za usavršavanje drugog stupnja.

U usporedbi s ranijim radovima koji često fokusiraju na govor ili uski zvukove domene, ovaj korpus je dizajniran da bude ravnotežen između govora, općenitih zvukova, glazbe i raznolikih video domena, što je važno za općenito audio-video dohvaćanje i razumijevanje.

Kontrastivni cilj kroz deset parova modaliteta

PE_AV koristi sigmoidnu kontrastivnu gubitak kroz audio, video, tekst i fuzirane reprezentacije. Istraživački tim objašnjava da model koristi osam kontrastivnih parova, uključujući audio-audio, audio-video, video-video, video-tekst, audio-tekst, video-audio, audio-audio-video i audio-video-tekst. Ovaj pristup omogućuje modelu da učvrsti veze između različitih modaliteta, što rezultira boljim razumijevanjem i dohvaćanjem sadržaja.

Zaključak

Meta AI Open-Sourced Perception Encoder Audiovisual (PE_AV) predstavlja značajni korak unaprijed u području multimodalnog razumijevanja. Ovaj model omogućuje zajedničko razumijevanje audio, video i tekstualnih sadržaja u jednom ugrađenom prostoru, koristeći kontrastivno učenje na velikoj skali. PE_AV koristi inovativnu arhitekturu s odvojenim tornjevima i fuzionim enkodera, dok dvostupanjski podatkovni stroj generira visoke kvalitete sintetičke opise. Ovaj pristup omogućuje modelu da se upita na mnoge načine bez ponovnog obučavanja specifičnih zadataka, što ga čini vrlo fleksibilnim i korisnim za različite aplikacije.

FAQ

Što je PE_AV i zašto je važan?

PE_AV je nov porodica enkodera koja omogućuje zajedničko razumijevanje audio, video i tekstualnih sadržaja u jednom ugrađenom prostoru. Važan je jer omogućuje multimodalno razumijevanje, što je korisno za različite aplikacije kao što su preporuke video sadržaja, pretraživanje multimedija i automatsko generiranje opisa.

Kako PE_AV funkcionira?

PE_AV koristi arhitekturu s odvojenim tornjevima za audio i video, a zatim ih fuzionira u zajednički ugrađeni prostor. Koristi kontrastivno učenje na velikoj skali podataka kako bi učvrstio veze između različitih modaliteta.

Koja je prednost korištenja PE_AV?

Prednost PE_AV je njegova fleksibilnost. Može se upitati na mnoge načine bez ponovnog obučavanja specifičnih zadataka, što ga čini vrlo korisnim za različite aplikacije.

Koji su izazovi povezani s korištenjem PE_AV?

Glavni izazov je generiranje visokokvalitetnih sintetičkih opisa za neoznačene klipove. Meta je riješila ovaj problem koristeći dvostupanjski podatkovni stroj koji koristi slabije modele i veliki jezik model za generiranje opisa.

Kako PE_AV može poboljšati moju aplikaciju?

PE_AV može poboljšati vašu aplikaciju omogućujući multimodalno razumijevanje. Možete koristiti ovaj model za preporuke video sadržaja, pretraživanje multimedija i automatsko generiranje opisa, što može značajno poboljšati korisničko iskustvo.

Meta AI Open-Sourced Perception Encoder Audiovisual (PE-AV)

Davor Horvat

Odgovori Cancel Reply

Popularno

ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno]

Razlika između Besplatne i Plaćene Verzije Chat GPT-a: Što Trebate Znati

Najbolji AI alati za programiranje i kodiranje u 2025. (praktični vodič)

Kako Koristiti ChatGPT Besplatno i Uporaba GPT-ova: Vodič za Početnike

Što je LLM (Large Language Model) ?

Najbolji AI alati za male poduzetnike u Hrvatskoj – vodič za 2025.

OpenAI otvara vrata za 18+ sadržaj za odrasle na ChatGPT-u

Što je AI rješenje za složene probleme i zašto je važno?

Kako koristiti ChatGPT: Vrhunski vodič za početnike (2025)

AI alati koji će revolucioniše provjeru kvalitete materijala – brže…

Gdje se danas koristi umjetna inteligencija: vodič kroz primjene, studije slučaja i budućnost

OpenAI bilježi rast korištenja svojih AI alata u velikim tvrtkama, usprkos rastućoj konkurenciji

Od Perception Encodera do PEAV

Arhitektura, odvojeni tornjevi i fuzija

Podatkovni stroj, sintetički audio-video opisi na velikoj skali

Kontrastivni cilj kroz deset parova modaliteta

Zaključak

FAQ

Što je PEAV i zašto je važan?

Kako PEAV funkcionira?

Koja je prednost korištenja PEAV?

Koji su izazovi povezani s korištenjem PEAV?

Kako PEAV može poboljšati moju aplikaciju?

Povezano