Tehnologija Umjetna inteligencija Vijesti

StepFun AI predstavlja Step-Audio-R1: Novi audio LLM koji koristi skaliranje računalnih resursa tijekom testiranja

30.11.2025.

196

Zašto trenutni modeli audio umjetne inteligencije često lošije performiraju kada generiraju dulje razmišljanje umjesto da svoje odluke temelje na stvarnom zvuku? Istraživački tim StepFun predstavlja Step-Audio-R1, novi audio LLM dizajniran za skaliranje računalnih resursa tijekom testiranja, koji se bavi ovim problemom pokazujući da pad točnosti s lancem razmišljanja nije ograničenje zvuka, već problem obuke i temeljenja modaliteta.

Screenshot 2025 11 29 at 1.33.29 PM — Izvor: https://arxiv.org/pdf/2511.15848

Osnovni problem: Audio modeli razmišljaju o tekstualnim zamjenicama

Većina trenutnih audio modela nasljeđuje svoje ponašanje razmišljanja iz obuke na tekstu. Uče razmišljati kao da čitaju transkripte, a ne kao da slušaju. Tim StepFun naziva ovo tekstualnim zamjenskim razmišljanjem. Model koristi zamišljene riječi i opise umjesto akustičkih znakova kao što su konture tona, ritam, timbar ili obrasci pozadinske buke.

Ova nesukladnost objašnjava zašto duži lanci razmišljanja često štete performansama u audio modelima. Model troši više tokena elaborirajući pogrešne ili modalitetu irelevantne pretpostavke. Step-Audio-R1 se bori protiv ovog problema prisiljavajući model da opravda odgovore koristeći akustične dokaze. Proces obuke organiziran je oko Modality Grounded Reasoning Distillation (MGRD), koji odabire i destilira tragove razmišljanja koji izričito upućuju na audio značajke.

Arhitektura

Arhitektura ostaje bliska prethodnim Step Audio sustavima:

A Qwen2 bazirani audio enkoder obrađuje sirove valne oblike na 25 Hz.
Audio adapter smanjuje izlaz enkodera za faktor 2, na 12,5 Hz, i usklađuje okvire s tokovima jezičnih tokena.
A Qwen2.5 32B dekoder koristi audio značajke i generira tekst.

Dekoder uvijek proizvodi eksplicitni blok razmišljanja unutar <think> i </think> oznaka, nakon čega slijedi konačni odgovor. Ova separacija omogućava ciljevima obuke da oblikuju strukturu i sadržaj razmišljanja bez gubitka fokusa na točnost zadatka. Model je objavljen kao 33B parametarski audio tekstualni model na Hugging Face pod Apache 2.0.

Screenshot 2025 11 29 at 1.38.15 PM — Izvor: https://arxiv.org/pdf/2511.15848

Proces obuke: Od hladnog starta do audio temeljenog RL

Proces obuke uključuje fazu nadzora hladnog starta i fazu učenja pojačanjem koja miješa tekstualne i audio zadatke.

Faza hladnog starta koristi oko 5 milijuna primjera, pokrivajući 1 milijardu tokena podataka isključivo iz teksta i 4 milijarde tokena iz audio povezanih podataka. Audio zadaci uključuju automatsko prepoznavanje govora, paralingvističko razumijevanje i dijaloge u stilu pitanja i odgovora. Dio audio podataka nosi tragove razmišljanja generirane ranijim modelom. Tekstualni podaci obuhvaćaju višekratne dijaloge, odgovaranje na pitanja o znanju, matematičko i kodiranje razmišljanje. Svi uzorci dijele format u kojem je razmišljanje omotano u <think> oznake, čak i kada je blok razmišljanja prvotno prazan.

Nadzor učenja trenira Step-Audio-R1 da slijedi ovaj format i generira korisno razmišljanje za audio i tekst. Ovo daje osnovno ponašanje lanca razmišljanja, ali još uvijek je pristrano prema razmišljanju temeljenom na tekstu.

Modality Grounded Reasoning Distillation (MGRD)

MGRD se primjenjuje u nekoliko iteracija. Za svaku rundu, istraživački tim uzima uzorke audio pitanja gdje oznaka ovisi o stvarnim akustičnim svojstvima. Na primjer, pitanja o emocijama govornika, pozadinskim događajima u zvučnim scenama ili glazbenoj strukturi. Trenutni model proizvodi više kandidata za razmišljanje i odgovore po pitanju. Filter zadržava samo lance koji ispunjavaju tri uvjeta:

Oni se odnose na akustične znakove, a ne samo na tekstualne opise ili zamišljene transkripte.
Logički su koherentni kao kratka objašnjenja korak po korak.
Konačni odgovori su točni prema oznakama ili programatskim provjerama.

Ovi prihvaćeni tragovi čine destilirani audio lanac razmišljanja. Model se fino podešava na ovom skupu podataka zajedno s originalnim tekstualnim podacima o razmišljanju. Nakon toga slijedi učenje pojačanjem s verificiranim nagradama (RLVR). Za tekstualna pitanja, nagrade se temelje na točnosti odgovora. Za audio pitanja, nagrada miješa točnost odgovora i format razmišljanja, s tipičnim ponderiranjem od 0.8 za točnost i 0.2 za razmišljanje. Obuka koristi PPO s oko 16 odgovora uzetih po upitu i podržava sekvence do oko 10 240 tokena kako bi omogućila dugotrajno razmišljanje.

Screenshot 2025 11 29 at 1.40.10 PM 1 — Izvor: https://arxiv.org/pdf/2511.15848

Zaključak

Step-Audio-R1 predstavlja značajan korak naprijed u razvoju audio modela umjetne inteligencije. Njegova sposobnost da se oslanja na akustične dokaze umjesto na tekstualne zamjene može značajno poboljšati točnost i učinkovitost u raznim aplikacijama. Ovaj model ne samo da rješava postojeće probleme, već i postavlja temelje za buduće istraživanje i razvoj u području audio umjetne inteligencije.