Zašto trenutni modeli audio umjetne inteligencije često lošije performiraju kada generiraju dulje razmišljanje umjesto da svoje odluke temelje na stvarnom zvuku? Istraživački tim StepFun predstavlja Step-Audio-R1, novi audio LLM dizajniran za skaliranje računalnih resursa tijekom testiranja, koji se bavi ovim problemom pokazujući da pad točnosti s lancem razmišljanja nije ograničenje zvuka, već problem obuke i temeljenja modaliteta.

Osnovni problem: Audio modeli razmišljaju o tekstualnim zamjenicama
Većina trenutnih audio modela nasljeđuje svoje ponašanje razmišljanja iz obuke na tekstu. Uče razmišljati kao da čitaju transkripte, a ne kao da slušaju. Tim StepFun naziva ovo tekstualnim zamjenskim razmišljanjem. Model koristi zamišljene riječi i opise umjesto akustičkih znakova kao što su konture tona, ritam, timbar ili obrasci pozadinske buke.
Ova nesukladnost objašnjava zašto duži lanci razmišljanja često štete performansama u audio modelima. Model troši više tokena elaborirajući pogrešne ili modalitetu irelevantne pretpostavke. Step-Audio-R1 se bori protiv ovog problema prisiljavajući model da opravda odgovore koristeći akustične dokaze. Proces obuke organiziran je oko Modality Grounded Reasoning Distillation (MGRD), koji odabire i destilira tragove razmišljanja koji izričito upućuju na audio značajke.
Arhitektura
Arhitektura ostaje bliska prethodnim Step Audio sustavima:
- A Qwen2 bazirani audio enkoder obrađuje sirove valne oblike na 25 Hz.
- Audio adapter smanjuje izlaz enkodera za faktor 2, na 12,5 Hz, i usklađuje okvire s tokovima jezičnih tokena.
- A Qwen2.5 32B dekoder koristi audio značajke i generira tekst.
Dekoder uvijek proizvodi eksplicitni blok razmišljanja unutar <think> i </think> oznaka, nakon čega slijedi konačni odgovor. Ova separacija omogućava ciljevima obuke da oblikuju strukturu i sadržaj razmišljanja bez gubitka fokusa na točnost zadatka. Model je objavljen kao 33B parametarski audio tekstualni model na Hugging Face pod Apache 2.0.

Proces obuke: Od hladnog starta do audio temeljenog RL
Proces obuke uključuje fazu nadzora hladnog starta i fazu učenja pojačanjem koja miješa tekstualne i audio zadatke.
Faza hladnog starta koristi oko 5 milijuna primjera, pokrivajući 1 milijardu tokena podataka isključivo iz teksta i 4 milijarde tokena iz audio povezanih podataka. Audio zadaci uključuju automatsko prepoznavanje govora, paralingvističko razumijevanje i dijaloge u stilu pitanja i odgovora. Dio audio podataka nosi tragove razmišljanja generirane ranijim modelom. Tekstualni podaci obuhvaćaju višekratne dijaloge, odgovaranje na pitanja o znanju, matematičko i kodiranje razmišljanje. Svi uzorci dijele format u kojem je razmišljanje omotano u <think> oznake, čak i kada je blok razmišljanja prvotno prazan.
Nadzor učenja trenira Step-Audio-R1 da slijedi ovaj format i generira korisno razmišljanje za audio i tekst. Ovo daje osnovno ponašanje lanca razmišljanja, ali još uvijek je pristrano prema razmišljanju temeljenom na tekstu.
Modality Grounded Reasoning Distillation (MGRD)
MGRD se primjenjuje u nekoliko iteracija. Za svaku rundu, istraživački tim uzima uzorke audio pitanja gdje oznaka ovisi o stvarnim akustičnim svojstvima. Na primjer, pitanja o emocijama govornika, pozadinskim događajima u zvučnim scenama ili glazbenoj strukturi. Trenutni model proizvodi više kandidata za razmišljanje i odgovore po pitanju. Filter zadržava samo lance koji ispunjavaju tri uvjeta:
- Oni se odnose na akustične znakove, a ne samo na tekstualne opise ili zamišljene transkripte.
- Logički su koherentni kao kratka objašnjenja korak po korak.
- Konačni odgovori su točni prema oznakama ili programatskim provjerama.
Ovi prihvaćeni tragovi čine destilirani audio lanac razmišljanja. Model se fino podešava na ovom skupu podataka zajedno s originalnim tekstualnim podacima o razmišljanju. Nakon toga slijedi učenje pojačanjem s verificiranim nagradama (RLVR). Za tekstualna pitanja, nagrade se temelje na točnosti odgovora. Za audio pitanja, nagrada miješa točnost odgovora i format razmišljanja, s tipičnim ponderiranjem od 0.8 za točnost i 0.2 za razmišljanje. Obuka koristi PPO s oko 16 odgovora uzetih po upitu i podržava sekvence do oko 10 240 tokena kako bi omogućila dugotrajno razmišljanje.

Zaključak
Step-Audio-R1 predstavlja značajan korak naprijed u razvoju audio modela umjetne inteligencije. Njegova sposobnost da se oslanja na akustične dokaze umjesto na tekstualne zamjene može značajno poboljšati točnost i učinkovitost u raznim aplikacijama. Ovaj model ne samo da rješava postojeće probleme, već i postavlja temelje za buduće istraživanje i razvoj u području audio umjetne inteligencije.
Najčešća pitanja (FAQ)
Što je Step-Audio-R1?
Step-Audio-R1 je novi audio LLM razvijen od strane StepFun tima, dizajniran za poboljšanje performansi audio modela tijekom generiranja razmišljanja.
Kako Step-Audio-R1 poboljšava točnost?
Model se oslanja na akustične dokaze umjesto na tekstualne zamjene, što omogućava preciznije donošenje odluka.
Koje su glavne značajke arhitekture Step-Audio-R1?
Arhitektura uključuje Qwen2 bazirani audio enkoder, audio adapter i Qwen2.5 dekoder koji generira tekst.
Kako se provodi obuka modela?
Obuka se provodi kroz faze nadzora i učenja pojačanjem, koristeći kombinaciju tekstualnih i audio zadataka.
Koje su prednosti korištenja MGRD?
MGRD omogućava modelu da se fokusira na akustične značajke, čime se poboljšava točnost i relevantnost razmišljanja.











![Kako se male firme mogu pripremiti za zahtjeve NIS2 [Vodič za 2025.] 15 a friendly robot always at your disposal 2025 01 09 12 18 47 utc](https://umjetnai.com/wp-content/uploads/2025/02/a-friendly-robot-always-at-your-disposal-2025-01-09-12-18-47-utc-360x180.jpg)
![ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno] 16 chatgpt5](https://umjetnai.com/wp-content/uploads/2025/08/chatgpt5-360x180.webp)
![Što znači NIS2 direktiva i zašto je važna za IT sigurnost u Hrvatskoj [EU podrška za cybersecurity] 17 businessman with smart artificial intelligence ai 2024 10 11 03 45 41 utc](https://umjetnai.com/wp-content/uploads/2025/04/businessman-with-smart-artificial-intelligence-ai-2024-10-11-03-45-41-utc-360x180.jpg)

