Tehnologija Umjetna inteligencija Vijesti

NVIDIA i Mistral AI predstavljaju 10x bržu inferenciju za obitelj Mistral 3 na sustavima GB200 NVL72

03.12.2025.

191

NVIDIA je danas objavio značajno proširenje svoje strategijske suradnje s tvrtkom Mistral AI.

NVIDIA je danas objavio značajno proširenje svoje strategijske suradnje s tvrtkom Mistral AI. Ova suradnja prati objavu nove obitelji otvorenih modela Mistral 3, što označava ključni trenutak u kojem su hardverska ubrzanja i otvorena arhitektura modela konvergirala kako bi predefinirala performanse.

Ova suradnja predstavlja veliki skok u brzini inferencije: novi modeli sada rade do 10x brže na sustavima NVIDIA GB200 NVL72 u odnosu na prethodnu generaciju sustava H200. Ovaj proboj otključava nevjerojatnu učinkovitost za AI na razini poduzeća, riješavajući probleme kasnjenja i troškova koji su tradicionalno ometali masovnu primjenu modela s razmišljanjem.

A Generacijski skok: 10x brže na Blackwell

Kako se zahtjevi poduzeća pomiču od jednostavnih chatbota prema agentima s visokim razmišljanjem i dugim kontekstima, učinkovitost inferencije postala je ključno grlo. Suradnja između NVIDIA i Mistral AI obrađuje ovaj problem optimizacijom obitelji Mistral 3 posebno za NVIDIA Blackwell arhitekturu.

Tamo gdje su sustavi za proizvodnju AI-a morali isporučiti snažno korisničko iskustvo (UX) i troškovno učinkovitu skalu, NVIDIA GB200 NVL72 pruža do 10x veću performansu od prethodne generacije H200. To nije samo povećanje sirove brzine; to se prevodi u značajno veću energetsku učinkovitost. Sustav premašuje 5,000,000 tokena po sekundi po megavat (MW) pri korisničkim interaktivnim stopama od 40 tokena po sekundi.

Za podatkovne centre koji se bore s ograničenjima snage, ovaj dobitak učinkovitosti je barem tako kritičan kao i povećanje performansi. Ovaj generacijski skok osigurava niži trošak po tokenu dok se održava visoka propusnost potrebna za real-time aplikacije.

Nova obitelj Mistral 3

Motornom ovom performansi je nova obitelj Mistral 3. Ova skupina modela pruža vodeću točnost, učinkovitost i mogućnosti prilagodbe, pokrivajući spektar od masivnih posla u podatkovnim centrima do inferencije na rubnim uređajima.

Mistral Large 3: Zastavna MoE

Na vrhu hijerarhije nalazi se Mistral Large 3, napredni model s rijedkim Multimodal i Multilingual Mixture-of-Experts (MoE).

Ukupni parametri: 675 milijardi
Aktivni parametri: 41 milijarda
Prozor konteksta: 256K tokena

Obučen na NVIDIA Hopper GPU-ovima, Mistral Large 3 dizajniran je za rukovanje složenim zadacima razmišljanja, nudeći paritet s vodećim zatvorenim modelima dok zadržava fleksibilnost otvorenih težina.

Ministral 3: Gusta snaga na rubu

Dopunjujući veliki model je Ministral 3 serija, skupina malih, gustih, visokoperformantnih modela dizajniranih za brzinu i raznolikost.

Veličine: 3B, 8B i 14B parametara.
Varijante: Base, Instruct i Reasoning za svaku veličinu (ukupno devet modela).
Prozor konteksta: 256K tokena kroz cijelu seriju.

Serija Ministral 3 ističe se na GPQA Diamond Accuracy benchmarku koristeći 100 manje tokena dok dostavlja veću točnost.

Značajna inženjerska iza brzine: Kompletan stog optimizacija

Tvrdnja o “10x” performansi temelji se na komprehensivnom stogu optimizacija koji su razvili inženjeri iz Mistrala i NVIDIA. Timi su usvojili pristup “ekstremnom suizgradnji”, spajajući hardverske mogućnosti s prilagodbama arhitekture modela.

TensorRT-LLM Wide Expert Parallelism (Wide-EP)

Da bi u potpunosti iskoristili masivnu skalu GB200 NVL72, TensorRT-LLM Wide Expert Parallelism (Wide-EP) omogućuje paralelno izvođenje ekspertskih modela, omogućujući efikasno korištenje velikih GPU resursa.

Optimizacija modela

Optimizacija modela uključuje prilagodbu arhitekture modela kako bi se bolje uklopili u hardverske mogućnosti GB200 NVL72. To uključuje prilagodbu slojeva modela, korištenje kvantizacije i druge tehnike za smanjenje veličine modela bez gubitka točnosti.

Softverska optimizacija

Softverska optimizacija uključuje korištenje NVIDIA-inih alata kao što su TensorRT i CUDA za maksimalno iskorištenje hardvera. Ovi alati omogućuju bržu inferenciju i manju potrošnju energije, što je ključno za real-time aplikacije.

Prednosti i nedostaci suradnje NVIDIA i Mistral AI

Prednosti

Povećana performansa: Do 10x veća performansa na sustavima GB200 NVL72.
Veća energetska učinkovitost: Preko 5,000,000 tokena po sekundi po megavatu.
Široka primjena: Od velikih podatkovnih centara do rubnih uređaja.
Otvoreni modeli: Vodeća točnost i fleksibilnost otvorenih modela.

Nedostaci

Kompleksnost: Potrebna je značajna inženjerska optimizacija za maksimalno iskorištenje.
Hardverski zahtjevi: Visoki hardverski zahtjevi za GB200 NVL72 sustave.
Inicijalni troškovi: Visoki početni troškovi za implementaciju.

Budućnost suradnje NVIDIA i Mistral AI

U 2026. godine, očekuje se da će suradnja između NVIDIA i Mistral AI nastaviti rasti, s fokusom na daljnje optimizaciju modela i hardvera. Najnovija istraživanja pokazuju da će se AI modeli sve više koristiti u različitim industrija, od zdravstva do financija, što će stvoriti nove mogućnosti za suradnju.

Trenutno, NVIDIA i Mistral AI rade na razvoju novih modela i optimizacija kako bi se ispunili rastući zahtjevi tržišta. Ova suradnja predstavlja samo početak, s velikim potencijalom za daljnji razvoj i inovacije.

Zaključak

Suradnja između NVIDIA i Mistral AI predstavlja ključni korak prema predefiniranju performansi u svijetu AI. S 10x bržom inferencijom na sustavima GB200 NVL72, ova suradnja otvara nove mogućnosti za razvoj i primjenu AI modela. S novom obitelji Mistral 3 i komprehensivnim stogom optimizacija, NVIDIA i Mistral AI postavljaju nove standarde u performansama i učinkovitosti.