U svijetu umjetne inteligencije napredak se mjeri ne samo brojem izdanih verzija, već i stvarnim pomakom u sposobnostima modela. Prijelaz s Claude Opus 4.7 na Opus 4.8 nije samo sitni zakrpa; radi se o temeljitoj reviziji razmišljanja modela, što je posebno važno za poduzeća koja se oslanjaju na pouzdane i precizne rezultate. Kako bi se te promjene kvantificirale, stručnjaci koriste benchmark pod nazivom MineBench – test koji ide daleko izvan jednostavnih zadataka prepoznavanja teksta i analize sentimenta. U nastavku donosimo detaljan pregled MineBench okvira, ključnih poboljšanja u Opus 4.8 te praktične implikacije za korisnike.
Što je MineBench i zašto je važan?
MineBench je postao referentna točka za ocjenjivanje velikih jezičnih modela (LLM‑ova) jer se usredotočuje na agentne zadatke – situacije u kojima model mora planirati, izvršavati i samokorektirati kroz više koraka. Test se sastoji od četiri glavne dimenzije:
- Logičko razmišljanje: rješavanje zagonetki koje zahtijevaju deduktivnu i induktivnu logiku.
- Višekorakno rješavanje problema: zadaci koji se ne mogu riješiti jednim potezom, već zahtijevaju niz međusobno povezanih odluka.
- Generiranje i optimizacija koda: pisanje programskog koda, otklanjanje grešaka i poboljšanje učinkovitosti.
- Matematička točnost: izvođenje složenih izračuna i dokazivanje teorema.
Za modele poput Claude Opus, MineBench predstavlja stres‑test njihovog “načina razmišljanja”. Ne mjeri se samo konačni rezultat, već i učinkovitost puta kojim je model došao do tog rezultata. To je ključno za poduzeća u kojima jedna logička pogreška može izazvati lančane negativne posljedice.
Ključna poboljšanja u Claude Opus 4.8
Verzija 4.8 donosi niz značajnih unapređenja u odnosu na prethodnu 4.7, a najvažnija su:
- Optimizacija arhitekture: nova struktura smanjuje pojavu halucinacija – situacija u kojima model generira netočne informacije – osobito u dugim lančanim zaključcima.
- Poboljšana memorija konteksta: model može pratiti i obrađivati duže tekstualne sekvence, što povećava koherentnost u kompleksnim razgovorima.
- Preciznije izvođenje koda: algoritmi za generiranje programskog koda su revidirani, što rezultira manjim brojem sintaktičkih i logičkih grešaka.
- Veća matematička točnost: dodatni moduli za simboličko računanje omogućuju točnije rješavanje naprednih jednadžbi i dokaza.
Ove promjene su posebno vidljive u MineBench testovima koji zahtijevaju višestruke korake i duboku logiku. U usporedbi, Opus 4.7 je bio hvaljen zbog kreativne dubine i prirodnog razgovornog tona, ali je ponekad pokazivao slabosti u dugoročnom rezoniranju.
Rezultati usporedbe na MineBenchu
U najnovijem testiranju, Claude Opus 4.8 je nadmašio 4.7 u svim četiri dimenzije MineBench okvira. Najveći skok zabilježen je u logičkom razmišljanju, gdje je 4.8 postigao 18 % veći udio točnih rješenja u zadacima s više koraka. Kod generiranja koda, broj ispravnih skripti porastao je s 71 % na 86 %, a vrijeme potrebno