Računarstvo Tehnologija Umjetna inteligencija

Nanbeige4-3B-Thinking: Kako 23T token pipeline pomiče 3B modele iznad 30B klasifikacije razmišljanja

13.12.2025.

205

Može li 3B model dostaviti 30B klasifikaciju razmišljanja tako što će ispraviti recept za obuku umjesto skaliranja parametara. Nanbeige LLM Lab u Boss Zhipinu objavio je Nanbeige4-3B, obitelj malih modela jezika s 3 milijarde parametara, obučenu s neobično velikim naglaskom na kvalitetu podataka, rasporedu nastave, destilaciji i učenju pojačanja.

Može li 3B model dostaviti 30B klasifikaciju razmišljanja tako što će ispraviti recept za obuku umjesto skaliranja parametara? Nanbeige LLM Lab u Boss Zhipinu objavio je Nanbeige4-3B, obitelj malih modela jezika s 3 milijarde parametara, obučenu s neobično velikim naglaskom na kvalitetu podataka, rasporedu nastave, destilaciji i učenju pojačanja.

Istraživački tim objavljuje 2 glavna checkpointa, Nanbeige4-3B-Base i Nanbeige4-3B-Thinking, i procjenjuje model razmišljanja s Qwen3 checkpointima od 4B do 32B parametara.

Rezultati benchmarka

Na AIME 2024, Nanbeige4-3B-2511 izvještava 90.4, dok Qwen3-32B-2504 izvještava 81.4. Na GPQA-Diamond, Nanbeige4-3B-2511 izvještava 82.2, dok Qwen3-14B-2504 izvještava 64.0 i Qwen3-32B-2504 izvještava 68.7. To su 2 benchmarka gdje je okvir “3B pobjeđuje 10× veći” direktno podržan.

Istraživački tim također prikazuje značajne dobitke u korištenju alata na BFCL-V4, Nanbeige4-3B izvještava 53.8, dok Qwen3-32B izvještava 47.9 i Qwen3-30B-A3B izvještava 48.6. Na Arena-Hard V2, Nanbeige4-3B izvještava 60.0, što odgovara najvišoj ocjeni navedenoj u tablici usporedbe unutar istraživačkog rada. U isto vrijeme, model nije najbolji u svakoj kategoriji. Na Fullstack-Bench izvještava 48.0, ispod Qwen3-14B s 55.7 i Qwen3-32B s 58.2, a na SuperGPQA izvještava 53.2, malo ispod Qwen3-32B s 54.1.

Recept za obuku, dijelovi koji pomiču 3B model

Hibridno filtriranje podataka, zatim uzorkovanje na velikoj skali

Za pretvaranje, istraživački tim kombinira višedimenzionalno označavanje s sličnošću temeljenim bodovanjem. Smanjuju prostor označavanja na 20 dimenzija i izvještavaju 2 ključna nalaza: sadržajno povezani oznake su prediktivnije od oznaka formata, a fino grafinirano bodovanje od 0 do 9 nadmašuje binarno označavanje. Za sličnošću temeljeno bodovanje, grade bazu podataka za dohvaćanje s stotinama milijardi unosa koji podržavaju hibridni tekst i vektorski dohvaćanje.

Filtriraju na 12,5T tokena visokokvalitetnih podataka, zatim odabiru 6,5T višekvalitetniji podskup i uzorkuju ga za 2 ili više epoha, proizvodeći konačni 23T token korpus za obuku. To je prvo mjesto gdje izvještaj odstupa od tipične male obuke modela; pipeline nije samo “čist podaci”, već su bodovani, dohvaćeni i uzorkovani s eksplicitnim pretpostavkama o korisnosti.

FG-WSD, planer korisnosti podataka umjesto uniformnog uzorkovanja

Većina sličnih istraživačkih projekata tretira toplu fazu stabilnog propadanja kao samo raspored brzine učenja. Nanbeige4-3B dodaje nastavni plan unutar stabilne faze putem FG-WSD, Fine-Grained Warmup-Stable-Decay. Umjesto uzorkovanja fiksne mješavine tijekom stabilne obuke, postupno se koncentriraju na kvalitetnije podatke kasnije u obuci.

U 1B ablaciji obučenoj na 1T tokena, gornja tablica pokazuje kako GSM8K poboljšava s 27.1 pod klasičnim WSD na 34.3 pod FG-WSD, s dobicima u CMATH, BBH, MMLU, CMMLU i MMLU-Pro. U punoj 3B obuci, istraživački tim dijeli obuku na toplu fazu, fazu obogaćenu raznolikošću, fazu visokokvalitetne stabilnosti i fazu propadanja, a koristi ABF u fazi propadanja za produženje konteksta do 64K.

Zaključak

Nanbeige4-3B-Thinking pokazuje kako se 3B model može poboljšati i postati konkurentan većim modelima bez skaliranja broja parametara. Hibridno filtriranje podataka, uzorkovanje na velikoj skali i FG-WSD omogućuju modelu da dostigne visoke rezultate na različitim benchmarkima. Ovaj pristup može imati značajne implikacije za budućnost razvoja modela umjetne inteligencije, omogućujući manjim modelima da dostignu visoke performanse bez potrebe za ogromnim resursima.

Česta pitanja

Što je Nanbeige4-3B-Thinking?

Nanbeige4-3B-Thinking je model jezika s 3 milijarde parametara, obučen s naglaskom na kvalitetu podataka, rasporedu nastave, destilaciji i učenju pojačanja.

Kako Nanbeige4-3B-Thinking postiže visoke rezultate?

Model postiže visoke rezultate koristeći hibridno filtriranje podataka, uzorkovanje na velikoj skali i FG-WSD, Fine-Grained Warmup-Stable-Decay.

Je li Nanbeige4-3B-Thinking najbolji model?

Nanbeige4-3B-Thinking nije najbolji u svakoj kategoriji, ali pokazuje da manji modeli mogu dostći visoke performanse bez skaliranja broja parametara.

Koja su buduća istraživanja vezana uz Nanbeige4-3B-Thinking?

Buduća istraživanja mogu uključivati daljnje poboljšanje recepta za obuku, istraživanje novih metoda za filtriranje podataka i uzorkovanje, te istraživanje mogućnosti primjene manjih modela u različitim domenama.