Meta AI istraživači predstavljaju Matrix: Decentralizirani okvir za generiranje sintetičkih podataka s više agenata

30.11.2025.

193

Kako održati sintetičke podatke svježima i raznolikima za moderne AI modele, a da pritom ne pretvorite jedan jedini orkestracijski sustav u usko grlo? Istraživači iz Meta AI predstavljaju M

Kako održati sintetičke podatke svježima i raznolikima za moderne AI modele, a da pritom ne pretvorite jedan jedini orkestracijski sustav u usko grlo? Istraživači iz Meta AI predstavljaju Matrix, decentralizirani okvir u kojem su kontrola i protok podataka serijalizirani u poruke koje se kreću kroz distribuirane redove. Kako treniranje velikih jezičnih modela (LLM) sve više ovisi o sintetičkim razgovorima, tragovima alata i logičkim lancima, većina postojećih sustava još uvijek se oslanja na središnjeg kontrolora ili specifične domene, što troši kapacitet GPU-a, povećava troškove koordinacije i ograničava raznolikost podataka. Matrix umjesto toga koristi peer-to-peer raspoređivanje agenata na Ray klasteru i pruža 2 do 15 puta veću propusnost tokena na stvarnim radnim opterećenjima, dok održava usporedivu kvalitetu.

Od središnjih kontrolora do peer-to-peer agenata

Tradicionalni okviri agenata drže stanje radnog toka i logiku kontrole unutar središnjeg orkestratora. Svaki poziv agenta, poziv alata i ponovni pokušaj prolaze kroz taj kontrolor. Ovaj model je jednostavan za razumijevanje, ali se ne skalira dobro kada je potrebno desetke tisuća istodobnih sintetičkih dijaloga ili putanja alata.

Matrix pristupa problemu na drugačiji način. Serijalizira i kontrolni protok i protok podataka u objekt poruke nazvanog orkestrator. Orkestrator drži stanje zadatka, uključujući povijest razgovora, međurezultate i logiku usmjeravanja. Bezdržavni agenti, implementirani kao Ray glumci, preuzimaju orkestrator iz distribuiranog reda, primjenjuju svoju specifičnu logiku, ažuriraju stanje i zatim ga izravno šalju sljedećem agentu kojeg odabire orkestrator. U unutarnjem krugu ne postoji središnji raspoređivač. Svaki zadatak napreduje neovisno na razini reda, umjesto da čeka barijere na razini serije kao u Spark ili Ray Data.

Ovaj dizajn smanjuje vrijeme neaktivnosti kada različite putanje imaju vrlo različite duljine. Također omogućuje lokalno upravljanje greškama unutar zadatka. Ako jedan orkestrator ne uspije, to ne zaustavlja cijelu seriju.

Sustav i usluge

Matrix radi na Ray klasteru koji se obično pokreće na SLURM-u. Ray pruža distribuirane glumce i redove. Ray Serve izlaže LLM krajnje točke iza vLLM i SGLang, a također može usmjeravati prema vanjskim API-ima poput Azure OpenAI ili Gemini putem proxy poslužitelja.

Pozivi alata i druge složene usluge rade unutar Apptainer kontejnera. Ovo izolira runtime agenta od sandboxa za izvršavanje koda, HTTP alata ili prilagođenih evaluatora. Hydra upravlja konfiguracijom za uloge agenata, tipove orkestratora, raspodjelu resursa i I/O sheme. Grafana se integrira s Ray metrikama kako bi u stvarnom vremenu pratila duljinu reda, čekajuće zadatke, propusnost tokena i iskorištenost GPU-a.

Matrix također uvodi prebacivanje poruka. Kada povijest razgovora premaši određeni prag veličine, veliki tereti se pohranjuju u Rayovu objekt skladištu, a samo identifikatori objekata se čuvaju u orkestratoru. Ovo smanjuje propusnost klastera, dok i dalje omogućuje agentima da rekonstruiraju upite kada je to potrebno.

Studija slučaja 1: Suradnički razmišljatelj

Suradnički razmišljatelj, poznat i kao Coral, procjenjuje dijalog više agenata gdje dva LLM agenta raspravljaju o pitanju, neslažu se kada je to potrebno i dolaze do konačnog odgovora. U izvornoj implementaciji središnji kontrolor upravlja tisućama samostalnih putanja suradnje. Matrix ponovno implementira isti protokol koristeći peer-to-peer orkestratore i bezdržavne agente.

Na 31 A100 čvoru, koristeći LLaMA 3.1 8B Instruct, Matrix konfigurira istodobnost kao 248 GPU-a s 50 upita po GPU-u, što omogućuje 12,400 istodobnih razgovora. Coral osnovni model radi na optimalnoj istodobnosti od 5,000. Pod identičnim hardverom, Matrix generira oko 2 milijarde tokena u otprilike 4 sata, dok Coral proizvodi oko 0.62 milijarde tokena u oko 9 sati. To predstavlja povećanje propusnosti tokena od 6.8 puta uz gotovo identičnu točnost dogovora od oko 0.47.

Studija slučaja 2: NaturalReasoning – Kustos podataka s weba

NaturalReasoning konstruira skup podataka za razmišljanje iz velikih web korpusa. Matrix modelira pipeline s tri agenta. Agent za filtriranje koristi manji klasifikacijski model za odabir engleskih odlomaka koji vjerojatno sadrže razmišljanje. Agent za ocjenjivanje koristi veći model prilagođen uputama za dodjeljivanje kvalitativnih ocjena. Agent za pitanja izvlači pitanja, odgovore i logičke lance.

Na 25 milijuna DCLM web dokumenata, samo oko 5.45 posto prolazi sve filtre, što rezultira s oko 1.19 milijuna parova pitanja i odgovora s povezanim razmišljanjem.

Zaključak

Matrix predstavlja značajan korak naprijed u razvoju decentraliziranih okvira za generiranje sintetičkih podataka. Njegova sposobnost da poveća propusnost tokena i smanji vrijeme neaktivnosti čini ga izuzetno korisnim alatom za istraživače i developere u području umjetne inteligencije. Ovaj pristup ne samo da poboljšava učinkovitost, već i omogućuje veću raznolikost podataka, što je ključno za treniranje naprednih AI modela.

Najčešća pitanja (FAQ)

Što je Matrix?

Matrix je decentralizirani okvir za generiranje sintetičkih podataka koji koristi peer-to-peer raspoređivanje agenata za poboljšanje propusnosti i raznolikosti podataka.