Shayne Longpre, Google Cloud Student Researcher, i Sayna Ebrahimi, Research Scientist, Google DeepMind
Uvodimo nove zakone skaliranja za masivno multilingualne jezike. ATLAS pruža smjernice o tome kako miješati podatke i trenirati najefikasnije modele koji će služiti jezicima izvan engleskog. Brzi linkovi: Paper ×
Više od 50% korisnika AI modela govori jezike koji nisu engleski, ali javno dostupni zakoni skaliranja pretežno su usmjereni na engleski jezik. Ovaj neravnoteža stvara kritičnu prazninu u javnom istraživanju, ostavljajući konstruktore modela bez podataka koji bi im pružili smjernice za ključne razvojne odluke o učinkovitosti, kvaliteti i troškovima prilikom izgradnje modela za jezike koji nisu engleski ili s određenim mješavinama jezika.
U članku “ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality”, koji će biti predstavljen na ICLR 2026, namjeravamo popuniti ovu prazninu. Predstavljamo najveće javno multilingualno pretreniranje do danas, koje obuhvaća 774 treninga s modelima od 10M do 8B parametara. Uključuje podatke iz više od 400 jezika i ocjene u 48 jezika. Kao rezultat ovog istraživanja, procijenili smo sinergije između 1.400 parova jezika i predstavili adaptivne zakone skaliranja (ATLAS) za izgradnju multilingualnih modela koji omogućuju praktičarima da efikasno balansiraju mješavinu jezika u treningu podataka s veličinom modela.
ATLAS: Jedan zakon skaliranja koji se prilagođava multilingualnim mješavinama
ATLAS je jednostavan i praktičan pristup određivanju optimalne veličine modela, volumena podataka i mješavine jezika za treniranje. U suprotnosti s tradicionalnim zakonima skaliranja koji se fokusiraju na monolingualne okruženja, ATLAS pruža ove preporuke za složenija, multilingualna okruženja. Posebno optimizira performanse na ciljanom jeziku (npr. Katalonski) iskorištavajući podatke iz više različitih jezika.
ATLAS proširuje ove tradicionalne principe zakona skaliranja kroz tri komponente:
- Matrica preslikavanja između jezika koja se koristi za identifikaciju jezika koji su najbolji za trenirati zajedno
- Zakon skaliranja koji pruža smjernice za efikasno proširivanje veličine modela i podataka kako bi broj podržanih jezika povećao
- Pravila za odlučivanje kada je potrebno pretrenirati model iz početka ili finetunirati iz multilingualnog checkpointa
ATLAS to postiže treniranjem stotina multilingualnih eksperimenata (koristeći MADLAD-400 korpus s više od 750 pokretanja na više od 400 jezika) i uzimajući u obzir tri različite izvora podataka:
- Ciljani jezik
- Slični jezici za prijenos prema empirijskoj analizi (npr. Katalonski može uključivati latinske jezike kao što su španjolski, portugalski i talijanski)
- Svi ostali jezici
Ovaj inovativni pristup omogućuje zakonu da nauči koliko svaki izvor stvarno pomaže ili ometi ciljani jezik, što prethodni zakoni nisu podržavali.
Evaluacija
Koristili smo skup podataka MADLAD-400 za procjenu toga kako dobro ATLAS predviđa performanse modela na novim veličinama modela, različitim količinama treninga podataka ili novim mješavinama jezika. To smo uradili mjerenjem performansi pomoću gubitka koji nije ovisan o rječniku preko više od 750 nezavisnih pokretanja u monolingualnim, bilingualnim i masivno multilingualnim okruženjima.
Naši rezultati pokazuju da ATLAS konsistentno nadmašuje prethodna istraživanja. Za šest jezika – engleski (EN), francuski (FR), ruski (RU), kineski (ZH), hindi (HI) i svahili (SW) – analizirali smo kako ATLAS predviđa optimalnu veličinu modela (N) i veličinu podataka (D) skaliranja. Kada smo usporedili ove optimalne skalirane trajektorije između jezika, napravili smo dva primjedba. Krivulje izgledaju izuzetno slično, ali treniranje s multilingualnim rječnikom ili potpuno multilingualnim podacima dolazi s računalnom efikasnošću – posebno za engleski. Jezici s niskim resursima pokazuju nagli porast kada im nedostaje podataka, a model ima poteškoća s učenjem iz ponavljanja podataka.
ATLAS eksplicitno modelira ove efekte. Ove grafikone pokazuju optimalne skalirane trajektorije (veličina modela (N) i veličina podataka (D) određena ATLAS za svaki jezik i tip modela). Linije predstavljaju tri konfiguracije: Čvrsta (monolingualni rječnik/podaci), Isprekidana (multilingualni rječnik/monolingualni podaci) i Točkasta (multilingualni rječnik/multilingualni podaci). Točkaste linije su konsistentno najviše, što ukazuje da treniranje s punim multilingualnim okruženjem zahtijeva malo više računala za istu kvalitetu.
Preslikavanje sinergija između jezika
Nakon toga, mjereni smo sinergije i interferencije između jezika na velikoj skali, proizvodeći matricu koja kvantificira koliko treniranje na jeziku A pomaže (ili ometi) jezik B. Naši rezultati pokazuju vrlo intuitivne rezultate: Norveški je najviše pomaže švedski i njemački, Malajski indonezijski, a Arapski hebrejski. Engleski, Francuski i Španjolski su najšire korisni jezici s kojima se trenira, vjerojatno zbog inherentne kvalitete, heterogenosti i količine teksta u ovim jezicima koji se nalaze na webu.
Zaključak
ATLAS predstavlja revolucionarni pristup skaliranju multilingualnih modela, pružajući praktičare smjernice za efikasno balansiranje mješavine jezika u treningu podataka s veličinom modela. Naši rezultati pokazuju da ATLAS konsistentno nadmašuje prethodna istraživanja i pruža korisne smjernice za izgradnju multilingualnih modela.
Česta pitanja
Koji jezici su najkorisniji za treniranje multilingualnih modela?
Engleski, Francuski i Španjolski su najšire korisni jezici s kojima se trenira, vjerojatno zbog inherentne kvalitete, heterogenosti i količine teksta u ovim jezicima koji se nalaze na webu.
Koliko je računala potrebno za treniranje multilingualnog modela?
Treniranje s punim multilingualnim okruženjem zahtijeva malo više računala za istu kvalitetu. Ovo je posebno istaknuto za engleski jezik.
Kako ATLAS određuje optimalnu veličinu modela i veličinu podataka?
ATLAS koristi matricu preslikavanja između jezika, zakon skaliranja i pravila za odlučivanje kada je potrebno pretrenirati model iz početka ili finetunirati iz multilingualnog checkpointa.
Koliko je jezika podržano u ATLAS-u?
ATLAS podržava više od 400 jezika.
Kako se ATLAS razlikuje od tradicionalnih zakona skaliranja?
ATLAS se razlikuje od tradicionalnih zakona skaliranja jer pruža smjernice za složenija, multilingualna okruženja i optimizira performanse na ciljanom jeziku iskorištavajući podatke iz više različitih jezika.





![ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno] 6 chatgpt5](https://umjetnai.com/wp-content/uploads/2025/08/chatgpt5-360x180.webp)







![Novi hibridni platforma za kvantnu simulaciju magnetizma 14 ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno]](https://umjetnai.com/wp-content/uploads/2025/08/526750221_1101661142120887_3623883531199391571_n-1-360x180.jpg)

