LifestyleTehnologijaVijesti

ATLAS: Praktični zakoni skaliranja za multilingualne modele

Shayne Longpre, Google Cloud Student Researcher, i Sayna Ebrahimi, Research Scientist, Google DeepMindUvodimo nove zakone skaliranja za masivno multilingualne jezike. ATLAS pruža smjernice o tome kako miješati podatke i trenirati najefikasnije modele koji će služiti jezicima izvan engleskog.

Shayne Longpre, Google Cloud Student Researcher, i Sayna Ebrahimi, Research Scientist, Google DeepMind

Uvodimo nove zakone skaliranja za masivno multilingualne jezike. ATLAS pruža smjernice o tome kako miješati podatke i trenirati najefikasnije modele koji će služiti jezicima izvan engleskog. Brzi linkovi: Paper ×

Više od 50% korisnika AI modela govori jezike koji nisu engleski, ali javno dostupni zakoni skaliranja pretežno su usmjereni na engleski jezik. Ovaj neravnoteža stvara kritičnu prazninu u javnom istraživanju, ostavljajući konstruktore modela bez podataka koji bi im pružili smjernice za ključne razvojne odluke o učinkovitosti, kvaliteti i troškovima prilikom izgradnje modela za jezike koji nisu engleski ili s određenim mješavinama jezika.

U članku “ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality”, koji će biti predstavljen na ICLR 2026, namjeravamo popuniti ovu prazninu. Predstavljamo najveće javno multilingualno pretreniranje do danas, koje obuhvaća 774 treninga s modelima od 10M do 8B parametara. Uključuje podatke iz više od 400 jezika i ocjene u 48 jezika. Kao rezultat ovog istraživanja, procijenili smo sinergije između 1.400 parova jezika i predstavili adaptivne zakone skaliranja (ATLAS) za izgradnju multilingualnih modela koji omogućuju praktičarima da efikasno balansiraju mješavinu jezika u treningu podataka s veličinom modela.

ATLAS: Jedan zakon skaliranja koji se prilagođava multilingualnim mješavinama

ATLAS je jednostavan i praktičan pristup određivanju optimalne veličine modela, volumena podataka i mješavine jezika za treniranje. U suprotnosti s tradicionalnim zakonima skaliranja koji se fokusiraju na monolingualne okruženja, ATLAS pruža ove preporuke za složenija, multilingualna okruženja. Posebno optimizira performanse na ciljanom jeziku (npr. Katalonski) iskorištavajući podatke iz više različitih jezika.

ATLAS proširuje ove tradicionalne principe zakona skaliranja kroz tri komponente:

  1. Matrica preslikavanja između jezika koja se koristi za identifikaciju jezika koji su najbolji za trenirati zajedno
  2. Zakon skaliranja koji pruža smjernice za efikasno proširivanje veličine modela i podataka kako bi broj podržanih jezika povećao
  3. Pravila za odlučivanje kada je potrebno pretrenirati model iz početka ili finetunirati iz multilingualnog checkpointa

ATLAS to postiže treniranjem stotina multilingualnih eksperimenata (koristeći MADLAD-400 korpus s više od 750 pokretanja na više od 400 jezika) i uzimajući u obzir tri različite izvora podataka:

  1. Ciljani jezik
  2. Slični jezici za prijenos prema empirijskoj analizi (npr. Katalonski može uključivati latinske jezike kao što su španjolski, portugalski i talijanski)
  3. Svi ostali jezici

Ovaj inovativni pristup omogućuje zakonu da nauči koliko svaki izvor stvarno pomaže ili ometi ciljani jezik, što prethodni zakoni nisu podržavali.

Evaluacija

Koristili smo skup podataka MADLAD-400 za procjenu toga kako dobro ATLAS predviđa performanse modela na novim veličinama modela, različitim količinama treninga podataka ili novim mješavinama jezika. To smo uradili mjerenjem performansi pomoću gubitka koji nije ovisan o rječniku preko više od 750 nezavisnih pokretanja u monolingualnim, bilingualnim i masivno multilingualnim okruženjima.

Naši rezultati pokazuju da ATLAS konsistentno nadmašuje prethodna istraživanja. Za šest jezika – engleski (EN), francuski (FR), ruski (RU), kineski (ZH), hindi (HI) i svahili (SW) – analizirali smo kako ATLAS predviđa optimalnu veličinu modela (N) i veličinu podataka (D) skaliranja. Kada smo usporedili ove optimalne skalirane trajektorije između jezika, napravili smo dva primjedba. Krivulje izgledaju izuzetno slično, ali treniranje s multilingualnim rječnikom ili potpuno multilingualnim podacima dolazi s računalnom efikasnošću – posebno za engleski. Jezici s niskim resursima pokazuju nagli porast kada im nedostaje podataka, a model ima poteškoća s učenjem iz ponavljanja podataka.

ATLAS eksplicitno modelira ove efekte. Ove grafikone pokazuju optimalne skalirane trajektorije (veličina modela (N) i veličina podataka (D) određena ATLAS za svaki jezik i tip modela). Linije predstavljaju tri konfiguracije: Čvrsta (monolingualni rječnik/podaci), Isprekidana (multilingualni rječnik/monolingualni podaci) i Točkasta (multilingualni rječnik/multilingualni podaci). Točkaste linije su konsistentno najviše, što ukazuje da treniranje s punim multilingualnim okruženjem zahtijeva malo više računala za istu kvalitetu.

Preslikavanje sinergija između jezika

Nakon toga, mjereni smo sinergije i interferencije između jezika na velikoj skali, proizvodeći matricu koja kvantificira koliko treniranje na jeziku A pomaže (ili ometi) jezik B. Naši rezultati pokazuju vrlo intuitivne rezultate: Norveški je najviše pomaže švedski i njemački, Malajski indonezijski, a Arapski hebrejski. Engleski, Francuski i Španjolski su najšire korisni jezici s kojima se trenira, vjerojatno zbog inherentne kvalitete, heterogenosti i količine teksta u ovim jezicima koji se nalaze na webu.

Zaključak

ATLAS predstavlja revolucionarni pristup skaliranju multilingualnih modela, pružajući praktičare smjernice za efikasno balansiranje mješavine jezika u treningu podataka s veličinom modela. Naši rezultati pokazuju da ATLAS konsistentno nadmašuje prethodna istraživanja i pruža korisne smjernice za izgradnju multilingualnih modela.

Česta pitanja

Koji jezici su najkorisniji za treniranje multilingualnih modela?

Engleski, Francuski i Španjolski su najšire korisni jezici s kojima se trenira, vjerojatno zbog inherentne kvalitete, heterogenosti i količine teksta u ovim jezicima koji se nalaze na webu.

Koliko je računala potrebno za treniranje multilingualnog modela?

Treniranje s punim multilingualnim okruženjem zahtijeva malo više računala za istu kvalitetu. Ovo je posebno istaknuto za engleski jezik.

Kako ATLAS određuje optimalnu veličinu modela i veličinu podataka?

ATLAS koristi matricu preslikavanja između jezika, zakon skaliranja i pravila za odlučivanje kada je potrebno pretrenirati model iz početka ili finetunirati iz multilingualnog checkpointa.

Koliko je jezika podržano u ATLAS-u?

ATLAS podržava više od 400 jezika.

Kako se ATLAS razlikuje od tradicionalnih zakona skaliranja?

ATLAS se razlikuje od tradicionalnih zakona skaliranja jer pruža smjernice za složenija, multilingualna okruženja i optimizira performanse na ciljanom jeziku iskorištavajući podatke iz više različitih jezika.

Povezano

1 of 256

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)