Claude Opus 4.8: Što je novo i kako se mjeri u usporedbi s 4.7?

U svijetu umjetne inteligencije napredak se mjeri ne samo brojem izdanih verzija, već i stvarnim pomakom u sposobnostima modela. Prijelaz s Claude Opus 4.7 na Opus 4.8 nije samo sitni zakrpa; radi se o temeljitoj reviziji razmišljanja modela, što je posebno važno za poduzeća koja se oslanjaju na pouzdane i precizne rezultate. Kako bi se te promjene kvantificirale, stručnjaci koriste benchmark pod nazivom MineBench – test koji ide daleko izvan jednostavnih zadataka prepoznavanja teksta i analize sentimenta. U nastavku donosimo detaljan pregled MineBench okvira, ključnih poboljšanja u Opus 4.8 te praktične implikacije za korisnike.

Što je MineBench i zašto je važan?

MineBench je postao referentna točka za ocjenjivanje velikih jezičnih modela (LLM‑ova) jer se usredotočuje na agentne zadatke – situacije u kojima model mora planirati, izvršavati i samokorektirati kroz više koraka. Test se sastoji od četiri glavne dimenzije:

Logičko razmišljanje: rješavanje zagonetki koje zahtijevaju deduktivnu i induktivnu logiku.
Višekorakno rješavanje problema: zadaci koji se ne mogu riješiti jednim potezom, već zahtijevaju niz međusobno povezanih odluka.
Generiranje i optimizacija koda: pisanje programskog koda, otklanjanje grešaka i poboljšanje učinkovitosti.
Matematička točnost: izvođenje složenih izračuna i dokazivanje teorema.

Za modele poput Claude Opus, MineBench predstavlja stres‑test njihovog “načina razmišljanja”. Ne mjeri se samo konačni rezultat, već i učinkovitost puta kojim je model došao do tog rezultata. To je ključno za poduzeća u kojima jedna logička pogreška može izazvati lančane negativne posljedice.

Ključna poboljšanja u Claude Opus 4.8

Verzija 4.8 donosi niz značajnih unapređenja u odnosu na prethodnu 4.7, a najvažnija su:

Optimizacija arhitekture: nova struktura smanjuje pojavu halucinacija – situacija u kojima model generira netočne informacije – osobito u dugim lančanim zaključcima.
Poboljšana memorija konteksta: model može pratiti i obrađivati duže tekstualne sekvence, što povećava koherentnost u kompleksnim razgovorima.
Preciznije izvođenje koda: algoritmi za generiranje programskog koda su revidirani, što rezultira manjim brojem sintaktičkih i logičkih grešaka.
Veća matematička točnost: dodatni moduli za simboličko računanje omogućuju točnije rješavanje naprednih jednadžbi i dokaza.

Ove promjene su posebno vidljive u MineBench testovima koji zahtijevaju višestruke korake i duboku logiku. U usporedbi, Opus 4.7 je bio hvaljen zbog kreativne dubine i prirodnog razgovornog tona, ali je ponekad pokazivao slabosti u dugoročnom rezoniranju.

Rezultati usporedbe na MineBenchu

U najnovijem testiranju, Claude Opus 4.8 je nadmašio 4.7 u svim četiri dimenzije MineBench okvira. Najveći skok zabilježen je u logičkom razmišljanju, gdje je 4.8 postigao 18 % veći udio točnih rješenja u zadacima s više koraka. Kod generiranja koda, broj ispravnih skripti porastao je s 71 % na 86 %, a vrijeme potrebno

Claude Opus 4.8: Što je novo i kako se mjeri u usporedbi s 4.7?

Što je MineBench i zašto je važan?

Ključna poboljšanja u Claude Opus 4.8

Rezultati usporedbe na MineBenchu

Odgovori Otkaži odgovor