Tehnologija Umjetna inteligencija Vijesti

DeepSeek istraživači predstavljaju DeepSeek-V3.2 i DeepSeek-V3.2-Speciale za dugoročno razmišljanje i agentne radne opterećenja

02.12.2025.

192

Kako postići razmišljanje na razini GPT-5 za stvarne dugoročne zadatke korištenja alata, a da pritom ne plaćate visoke troškove kvadratne pažnje i GPU-a koji obično čine takve sustave nepraktičnima? Istraživanje DeepSeek predstavlja DeepSeek-V3.2 i DeepSeek-V3.2-Speciale. Ovi modeli su usmjereni na razmišljanje i dizajnirani su za agente, s ciljem postizanja visoke kvalitete razmišljanja, dugog konteksta i agentnih radnih tijekova, uz otvorene težine i produkcijske API-je. Ovi modeli kombiniraju DeepSeek Sparse Attention (DSA), skalirani GRPO sustav učenja pojačanjem i protokol alata prilagođen agentima, te izvještavaju o performansama usporedivim s GPT-5, pri čemu DeepSeek-V3.2-Speciale doseže razinu razmišljanja Gemini 3.0 Pro na javnim benchmark testovima i natjecanjima.

Sparse Attention s gotovo linearnim troškovima dugog konteksta

Oba modela, DeepSeek-V3.2 i DeepSeek-V3.2-Speciale, koriste DeepSeek-V3 Mixture of Experts transformer s otprilike 671 milijardom ukupnih parametara i 37 milijardi aktivnih parametara po tokenu, naslijeđenih iz V3.1 Terminus. Jedina strukturna promjena je uvođenje DeepSeek Sparse Attention, koje je implementirano kroz nastavak pretreniranja.

DeepSeek Sparse Attention dijeli pažnju na dva komponenta. Lightning indexer pokreće mali broj glava niske preciznosti preko svih parova tokena i proizvodi ocjene relevantnosti. Fine grained selector zadržava top-k ključne vrijednosti po upitu, a glavni put pažnje koristi Multi-Query-Attention i Multi-Head-Latent-Attention na ovom rijetkom skupu.

Ova promjena smanjuje dominantnu složenost s O(L²) na O(kL), gdje je L duljina sekvence, a k broj odabranih tokena, koji je znatno manji od L. Na temelju benchmark testova, DeepSeek-V3.2 odgovara gustoći Terminus osnovi po točnosti, dok smanjuje troškove inferencije dugog konteksta za otprilike 50 posto, uz brži protok i manju potrošnju memorije na H800 klasi hardvera i na vLLM i SGLang backendima.

Nastavak pretreniranja za DeepSeek Sparse Attention

DeepSeek Sparse Attention (DSA) uveden je nastavkom pretreniranja na vrhu DeepSeek-V3.2 Terminus. U fazi gusto zagrijavanja, gusta pažnja ostaje aktivna, svi osnovni parametri su zamrznuti, a samo se lightning indexer trenira s Kullback-Leibler gubitkom kako bi se uskladila gustoća pažnje na 128K kontekstualnih sekvenci. Ova faza koristi mali broj koraka i oko 2 milijarde tokena, što je dovoljno da indexer nauči korisne ocjene.

U rijetkoj fazi, selektor zadržava 2048 ključnih vrijednosti po upitu, osnovni model se otvara i model nastavlja trenirati na oko 944 milijarde tokena. Gradijenti za indexer i dalje dolaze samo iz gubitka usklađenosti s gustim pažnjama na odabranim pozicijama. Ova shema omogućuje DeepSeek Sparse Attention (DSA) da se ponaša kao zamjena za gustu pažnju slične kvalitete, ali s nižim troškovima dugog konteksta.

GRPO s više od 10 posto RL izračuna

Na vrhu rijetke arhitekture, DeepSeek-V3.2 koristi Group Relative Policy Optimization (GRPO) kao glavnu metodu učenja pojačanjem. Istraživački tim navodi da izračun učenja pojačanjem (RL) nakon treniranja premašuje 10 posto izračuna tijekom pretreniranja.

RL je organiziran oko specijaliziranih domena. Istraživački tim trenira posvećene runde za matematiku, konkurentno programiranje, opće logičko razmišljanje, pretraživanje i zadatke agenata te sigurnost, a zatim destilira ove specijaliste u zajedničku osnovu od 685 milijardi parametara za DeepSeek-V3.2 i DeepSeek-V3.2-Speciale. GRPO se implementira s nepristranim KL estimatorom, off-policy sekvencama maskiranja i mehanizmima koji održavaju Mixture of Experts (MoE) usmjeravanje i uzorke konzistentnima između treniranja i uzorkovanja.

Podaci agenata, način razmišljanja i protokol alata

DeepSeek-V3.2 i DeepSeek-V3.2-Speciale koriste inovativne pristupe u radu s agentima. Ovi modeli omogućuju agentima da koriste različite alate i resurse za rješavanje složenih problema. Protokol alata osigurava da agenti mogu učinkovito komunicirati i razmjenjivati informacije, što poboljšava njihovu sposobnost donošenja odluka.

Način razmišljanja ovih modela omogućuje im da analiziraju i interpretiraju podatke na način koji je sličan ljudskom razmišljanju. Ova sposobnost je ključna za razvoj naprednih AI sustava koji mogu raditi u dinamičnim okruženjima.

Zaključak

DeepSeek-V3.2 i DeepSeek-V3.2-Speciale predstavljaju značajan napredak u području umjetne inteligencije, posebno u kontekstu dugoročnog razmišljanja i agentnih radnih opterećenja. Ovi modeli nude inovativne pristupe koji smanjuju troškove i povećavaju učinkovitost, čime se otvaraju nove mogućnosti za primjenu AI tehnologija u različitim industrijama.

Najčešća pitanja (FAQ)

Što su DeepSeek-V3.2 i DeepSeek-V3.2-Speciale?

DeepSeek-V3.2 i DeepSeek-V3.2-Speciale su modeli umjetne inteligencije koji su dizajnirani za dugoročno razmišljanje i radne procese agenata, s ciljem postizanja visoke kvalitete razmišljanja uz smanjene troškove.

Kako DeepSeek Sparse Attention funkcionira?

DeepSeek Sparse Attention dijeli pažnju na dvije komponente, omogućujući efikasnije procesiranje podataka i smanjenje troškova inferencije.

Koje su prednosti korištenja GRPO?

GRPO omogućuje poboljšanje performansi modela kroz specijalizirane domene i optimizaciju procesa učenja pojačanjem.

Kako se ovi modeli primjenjuju u stvarnom svijetu?

Ovi modeli se mogu koristiti u raznim industrijama, uključujući financije, zdravstvo i tehnologiju, za rješavanje složenih problema i donošenje odluka.