Od Valova do Mudrosti: Novi Standard za Slušnu Inteligenciju

01.02.2026.

195

- Ehsan Variani, Senior Staff Research Scientist, Google ResearchMassive Sound Embedding Benchmark (MSEB) je definiran, otvoreni izvorni platforma za mjerenje strojne slušne inteligencije, koja ujedinjuje osam osnovnih sposobnosti - od pretraživanja i klasifikacije do rekonstrukcije - kako bi potakla istraživanje iznad trenutnog krovnog performansa AI-a temeljenog na zvuku.

1. prosinca 2025. – Ehsan Variani, Senior Staff Research Scientist, Google Research

Massive Sound Embedding Benchmark (MSEB) je definiran, otvoreni izvorni platforma za mjerenje strojne slušne inteligencije, koja ujedinjuje osam osnovnih sposobnosti – od pretraživanja i klasifikacije do rekonstrukcije – kako bi potakla istraživanje iznad trenutnog krovnog performansa AI-a temeljenog na zvuku. Brzi linkovi MSEB Paper MSEB Benchmark Simple Voice Questions Dataset × Zvuk je ključan dio multimodalnog percepcijskog sustava. Za sustav – bilo da je to glasovni asistent, napredni sigurnosni nadzornik ili autonomni agent – da bi se ponašao prirodno, mora pokazati pun spektar slušnih sposobnosti. Ove sposobnosti uključuju transkripciju, klasifikaciju, pretraživanje, razmišljanje, segmentaciju, grupiranje, ponovni rangiranje i rekonstrukciju. Ove raznovrsne funkcije ovisne su o pretvaranju sirovog zvuka u međureprezentaciju ili ugradnju. Istraživanje poboljšanja slušnih sposobnosti multimodalnih percepcijskih modela bilo je fragmentirano, a ostala su važna neodgovorena pitanja: Kako usporediti performanse u domenama poput ljudskog govora i bioakustike? Koji je pravi potencijal performansi koji ostaje neiskorišten? I može li jedan opći zvuk ugraditi poslužiti kao temelj za sve ove sposobnosti? Da bismo istražili ova pitanja i potakli napredak prema robustnoj strojnoj slušnoj inteligenciji, stvorili smo Massive Sound Embedding Benchmark (MSEB), predstavljen na NeurIPS 2025. MSEB pruža potrebnu strukturu za odgovor na ova pitanja:

– Standardiziranjem procjene za opsežnu skupinu od osam stvarnih svijetskih sposobnosti koje smatramo da svaki ljudski inteligenti sustav mora posjedovati.
– Pružanjem otvorenog i proširivog okvira koji omogućuje istraživačima da bezbrižno integriraju i procjenjuju bilo koji tip modela – od konvencionalnih downstream unimodalnih modela do kaskadnih modela do krajnje-multimodalnih ugradnji modela.
– Postavljanjem jasnih ciljeva performansi kako bi objektivno istaknuli istraživačke prilike izvan trenutno najnovijih pristupa.

Naši početni eksperimenti potvrđuju da su trenutačne zvukove reprezentacije daleko od univerzalnih, otkrivajući znatnu performansu “glavnog prostora” (tj. maksimalno moguće poboljšanje) u svim osam zadataka. Tri stupa MSEB-a: Ujedinjeni okvir MSEB je građen na tri temeljna stupa dizajnirana da zajednici pruže alate potrebne za izgradnju sljedeće generacije zvuk razumijevanja modela. 1. Raznovrsni skupovi podataka za stvarne scenarije Benchmark je samo toliko jak koliko je njegova data. MSEB uključuje izabranu kolekciju pristupačnih skupova podataka koji bolje odražavaju našu raznovrsnu globalnu korisničku zajednicu. Temelj našeg benchmarka je Simple Voice Questions (SVQ) skup podataka, novi resurs koji sadrži 177,352 kratka, izgovorena upita preko 26 lokala i 17 jezika. Ove snimke su snimljene u četiri različite akustičke okoline (čisto, govor u pozadini, prometni buka i medijska buka) i uključuju bogatu metapodatke o atributima govornika i vremenski poravnate salijentne pojmove. Skupljali smo i otvorili ovaj resurs, dostupan na Hugging Faceu. MSEB također integrira visoko kvalitetne javne skupove podataka koji pokrivaju raznovrsne zvukove domene: Speech-MASSIVE: Za multilingualno razumijevanje govornog jezika i klasifikaciju namjera. FSD50K: Veliki skup podataka za multi-label environmental sound event recognition (200 klasa iz AudioSet Ontology). BirdSet: Masivni benchmark za avijsku bioakustiku, uključujući složene snimke zvukosnima. Aktivno radimo na stvaranju i dodavanju novih relevantnih i velikih skupova podataka u MSEB. Pozivamo zajednicu da podijele svoje prijedloge i izrazite interes za suradnju putem našeg GitHub repozitorija. 2. Opsežna skupina od osam osnovnih sposobnosti Dizajn MSEB-a temelji se na pretpostavci da je budućnost AI-ovog zvukog interakcijskog sustava multimodalna. Svaki zadatak koristi zvuk kao ključni ulaz, ali također uključuje informacije iz drugih modala (kao što su tekstualni kontekst ili baze znanja) da simuliraju realistične scenarije. MSEB je strukturalan oko osam osnovnih “super-zadataka”, tj. zadataka koji predstavljaju sposobnost važnu za inteligenti sustav: Pretraživanje (glasovna pretraga): Simulira glasovnu pretragu pronalazeći relevantne dokumente ili pasuse u bazi znanja iz izgovorenog upita. Razmišljanje (inteligentni asistenti): Testira sposobnost pronalaska točnog odgovora unutar danog dokumenta ili pasusa na temelju izgovorenog pitanja. Klasifikacija (nadzor/sigurnost): Kategorizira zvukove na temelju atributa govornika, namjera korisnika, okoline snimanja ili specifičnih zvukovnih događaja. Transkripcija: Pretvara audio signal u verbatim tekstualnu reprezentaciju (kao što je automatsko prevođenje govora, ili ASR, za govorne jezike). Segmentacija (indeksiranje): Identificira najvažnije pojmove unutar zvuka. Grupiranje (organizacija): Grupira slične zvukove zajedno na temelju njihovih karakteristika. Ponovno rangiranje (preciznost): Ponovno rangira rezultate pretraživanja na temelju relevantnosti. Rekonstrukcija (obnavljanje): Rekonstruira originalni zvuk iz njegovih međureprezentacija. 3. Obrazac za procjenu performansi MSEB pruža obrazac za procjenu performansi koji omogućuje objektivnu procjenu modela na temelju njihovih performansi na osam osnovnih zadataka. Obrazac uključuje metrike za svaki zadatak, kao što su preciznost, odziv, F1-ocjena i srednja apsolutna greška. Obrazac također uključuje procjenu performansi na različitim skupovima podataka i okolinama kako bi se osiguralo da modeli mogu generalizirati na raznovrsne scenarije. MSEB je dizajniran da bude otvoren i proširiv, omogućujući istraživačima da dodaju nove zadatke i metrike u budućnosti. FAQ Korisnici često postavljaju sljedeća pitanja: Kako mogu pristupiti MSEB-u? MSEB je dostupan na našem GitHub repozitoriju. Koji su preduvjeti za korištenje MSEB-a? Ne postoje specifični preduvjeti za korištenje MSEB-a. Svi korisnici mogu pristupiti i koristiti platformu. Koji su najčešći zadaci koji se procjenjuju u MSEB-u? Najčešći zadaci koji se procjenjuju u MSEB-u uključuju pretraživanje, razmišljanje, klasifikaciju, transkripciju, segmentaciju, grupiranje, ponovno rangiranje i rekonstrukciju. Kako mogu istraživači doprinijeti MSEB-u? Istraživači mogu doprinijeti MSEB-u dodavanjem novih skupova podataka, zadataka ili metrika. Također mogu podijeliti svoje rezultate i nalaze putem našeg GitHub repozitorija. Koji su najnoviji razvoj u MSEB-u? Najnoviji razvoj u MSEB-u uključuje integraciju novih skupova podataka, kao što su Speech-MASSIVE i BirdSet, te poboljšanje obrazca za procjenu performansi. Također smo počeli surađivati s drugim istraživačima i institucijama kako bismo proširili MSEB i njegov utjecaj. Kako mogu korisnici pronaći dodatne informacije o MSEB-u? Korisnici mogu pronaći dodatne informacije o MSEB-u putem našeg GitHub repozitorija, našeg bloga i naših javnih prezentacija. Također možete kontaktirati naš tim za podršku putem e-pošte ili telefonom. U budućnosti, nadamo se da će MSEB postati standardni benchmark za mjerenje strojne slušne inteligencije i potaknuti napredak u ovom polju.