Tehnologija Umjetna inteligencija Vijesti

GLM-4.6V – Nova Era Multimodalnog AI-a s 128K Kontekstom

09.12.2025.

204

Midjourney AI

U svijetu umjetne inteligencije, svaki korak naprijed donosi promjene koje oblikuju budućnost tehnologije. Upravo tako, kineska kompanija Zhipu AI objavila je GLM-4.6V – multimodalni jezični model koji ne samo da razumije tekst, nego i obraduje vizualne ulaze – slike, dokumente i videozapise – kao prvoklasne dijelove ulazne informacije. Ovaj model dolazi s vrlo specifičnim ciljem: povezati perceptualne sposobnosti AI-a s izvršnim mogućnostima, omogućujući sistemima da ne samo da vide i čitaju, nego i izravno djeluju na temelju širega konteksta.

Uvod u GLM-4.6V – Revolucija Multimodalnog AI-a

U vrijeme kad su većine AI modela tek obradili besplatne tekstualne ulaze, GLM-4.6V dolazi kao pravi korak prema autonimnim agentima koji mogu izravno interpretirati i reagirati na svijet oko sebe. S podrškom za kontekste do 128.000 tokena i mogućnosti da u jednom prolazu interpretira veliki broj stranica, video ili prezentacije, ovaj model postavlja novi standard u multimodalnoj obradi informacija.

Što Zhipu AI pruža s ovim izdanjem je više od prostog AI modela – to je prava platforma za inteligentne, izvršne agente koji mogu razumjeti i obraditi informacije na višem nivou. S podrškom za native multimodalno korištenje alata, može direktno manipulirati grafičkim sadržajima, izvršavati zadatke na temelju vizualnih inputa i čak generirati web sadržaje na osnovi slika ili prezentacija.

Modeli u GLM-4.6V Seriji

GLM-4.6V dolazi u dvije varijante, svaka prilagođena konkretnim korištenjima:

GLM-4.6V – Cloud Model za Napredne Zadatke

Kao osnovni temelj serije, GLM-4.6V je model od 106 milijardi parametara. Njegova arhitektura prilagođena je visoko performantnim računalnim klasterima i klaud okruženjima. U idealnim uvjetima može se koristiti za velike zadatke poput analize dugih dokumenata, multimodalnih pretraživanja, čitanja financijskih izvještaja ili čak interpretacija cijelih sportskih utakmica – s mogućnosti da odgovori na specifične pitanja (npr. koji gol je postignut u 78. minuti).

GLM-4.6V-Flash – Brzina i Lokalna Deployabilnost

Za one koji imaju potrebu za brzim odgovorima i loklanom obradom, dolazi GLM-4.6V-Flash – verzija od 9 milijardi parametara. Ovaj model omogućuje izvršavanje na lokalnim uređajima s minimalnim kašnjenjem. Idealna je opcija za one koji traže performanse u stvarnom vremenu, ali bez velikih klaud resursa – kao što su dizajn u kod, brzo prepoznavanje vizualnih sadržaja ili inline uređivanje teksta.

Obrada konteksta do 128K tokena znači da model može primati izvore informacija koji se protežu kroz 150 stranica teksta, 200 stranica slajdova ili čak sat vremena video sadržaja – a to sve u jednom prolazu, bez potrebe za sekcionalnom obradom. Posebno interesantno je to što su stranice obrađene kao slike, čime se ostvaruje dublja percepcija sadržaja nego kod tradicionalnih OCR metoda.

Native Multimodalni Function Calling

Jedan od najvećih napredaka u GLM-4.6V modelu je uvođenje native multimodalnog korištenja funkcija (tool calling). U klasičnim modelima, AI obrađuje slike tako što ih pretvori u tekst, a zatim na temelju teksta poziva alate – proces koji je često usporen i pun izgubljenih informacija.

U ovom slučaju, slike, grafički prikazi, tablice i snimke zaslona prenose se direktno u alat, bez prethodne verbalizacije. Rezultat alata – bilo da je slika, grafikon, web rezultat ili HTML kod – vraća se modelu kao nova vizualna informacija. Sve se to tada spaja u kontinuiranu logiku razmišljanja koja uključuje i tekst i slike.

“Ovo je prvi korak prema agentima koji vide, razmišljaju i djeluju bez prekida. Nema više ‘gubitka’ kada se informacije pretvore u tekst.” — Zhipu AI Tim

Kako to funkcionira u praksi?

Model koristi prošireni Model Context Protocol koji omogućuje URL-ove kao direktno identifikatore slika ili video frejmova. Na taj način se zaobilazi ograničenje veličine datoteke i omogućuje precizno određivanje sadržaja unutar multimodalnih konteksta – na primjer, kada se odredi koji dio tablice ili koja slika iz prezentacije ima najveću relevantnost za daljnju obradu.

Prednosti: brža obrada, manja izgubljena informacija, izravna obrada multimodalnih podataka
Nedostatak: trenutno ograničena podrška za sve tipove alata – ali to se mijenja svakodnevno

Kanonske Uloge Modela – Četiri Ključne Upotrebe

Zhipu AI tim predstavlja ovaj model kroz četiri osnovna korisnička scenarija u kojima bi GLM-4.6V bio izrazito učinkovit:

1. Razumijevanje i Kreiranje Bogatog Teksta

Model može čitati smješane ulaze – poput znanstvenih radova kombinacija tekstova, tablica, grafikona, formula i slika – i iz njih generirati strukturirani izlaz u kojem je tekst međusobno povezan s vizualnim elementima. U jednom od testova, AI je generirao prezentaciju s uključenim grafikonima, slikama i čak citatom iz članka – sve u 30 sekundi.

Više od toga, model može koristiti alate za pretraživanje, filtriranje materijala i čak automatski odabrati slikovne prikaze temeljene na kontekstu – s time da na kraju vrši vizualnu provjeru (audit) kako bi osigurao kvalitetu konačnog dokumenta.

2. Vizualna Web Pretraga

Što ako možete pitati AI da vam usporedi proizvode na temelju slika koje ste mu dali? GLM-4.6V može prepoznati što korisnik traži, odabrati koje alate koristiti za pretragu (tekstualne i slikovne), izdvojiti relevantne rezultate i vratiti jasan, strukturiran odgovor – često u obliku usporednih tabela, ilustracija i preporuka.

3. Reprodukcija i Interakcija s Frontendom

Jedna od najzanimljivijih primjena ovog modela je u svijetu web razvoja. GLM-4.6V može primiti snimku ekrana web sučelja i rekonstruirati cijeli HTML/CSS/JS kod s piksel preciznošću. Još zanimljivije – ako označite dio zaslona i kažete „pomakni dugme ulijevo“, AI će automatski pronaći pravi dio koda i ažurirati ga.

U praksi, to znači da razvojni timovi mogu koristiti GLM-4.6V kao AI kodera koji „gleda“ i „razumije“ dizajn, a pritom „uređuje“ kod bez direktnog pristupa izvoru.

4. Obrađivanje Multimodalnih Dokumenata u Dugim Kontekstima

Jedna od najjačih točki ove verzije je sposobnost da čita dokumente i video kao cjeline – čak i kada se protežu kroz velike količine sadržaja. U demo primjeru, model je analizirao financijske izvještaje četiriju javnih tvrtki, izdvojio ključne metrike i složio ih u usporedbenu tablicu – sve u kontinuiranom procesu bez gubitka konteksta.

U drugom primjeru, AI je gledao snimku nogometne utakmice i odgovorio na pitanja poput „tko je postigao gol u 64. minuti?“ – čime se pokazuje koliko duboko može ići njegova analiza i kontekstualno razumijevanje.

Arhitektura, Podaci i Reinforcement

GLM-4.6V nasljeđuje osnovne principe iz prethodne verzije GLM-V serije, ali donosi značajne nadogradnje u trima ključnim područjima:

1. Modeliranje Dugih Sekvenca

U ranijim verzijama, obrada dugih tekstova zahtijevala je sekvencijalnu obradu, što je bilo sporo i sklono gubitku konteksta. GLM-4.6V koristi tehnike koje su udužile kontekstualni prozor na 128K tokena, uz pomoć “kompresijskog poravnanja” slika i teksta – što znači da svaki token može zadržati više informacija.

2. Poboljšano Svakodnevno Znanje

Za pretraining modela, Zhipu AI ubacio je ogroman multimodalni dataset koji uključuje znanstvene koncepte, svakodnevne situacije, ali i milijarde slika sa svakodnevnica. Cilj je bio osigurati da model bude sposoban ne samo da obradi specijalizirane sadržaje već i da razumije svijet u širem smislu.

3. Reinforcement kroz Više Modaliteta

Osim standardnog RLHF-a (Reinforcement Learning from Human Feedback), model koristi više metoda učenja kako bi bolje obrađivao kombinacije slika i teksta. Rezultat je AI koji uči iz konteksta koji uključuje više smislenih podataka nego ikada.

Zaključak: Budućnost Multimodalnih AI Modela

GLM-4.6V nije samo još jedan AI model. On predstavlja most između tradicionalnih jezičnih modela i potpuno funkcionalnih multimodalnih agenata. Bez obzira radite li na pretraživanju slika, analizirate dokumente, razvijate web sučelja ili analizirate video sadržaj, GLM-4.6V pruža alat koji razumije više od teksta – on razumije kontekst, svijet i intencije.

Otvoren kod ovog modela dodatno otvara vrata zajednici za eksperimente, nove alate i aplikacije – sve u cilju bržeg napretka multimodalne inteligencije. Ako vas zanima AI koji „gleda“, „razmišlja“ i „izvršava“, ovaj model definitivno zaslužuje vašu pažnju.

Često Postavljena Pitanja (FAQ)

Kako mogu koristiti GLM-4.6V?
Trenutno se model može preuzeti putem GitHub repozitorija Zhipu AI-e. Za lokalnu upotrebu koristi se Flash verzija, dok se za komercijalne primjene i velike zadatke koristi puna verzija.
Je li model besplatan?
Zhipu AI objavio je model pod open source licencom, što znači da je besplatan za korištenje unutar ograničenja licence.
Na kojim se jezicima model oslanja?
Iako je primarno treniran na kineskom, model ima solidne performanse i na engleskom te drugim glavnim jezicima.
Može li model raditi offline?
Da, Flash verzija je specifično optimizirana za offline upotrebu bez potrebe za internet vezom.
Je li model dostupan u HuggingFace ili drugim platformama?
Da, u bliskoj budućnosti će biti dostupan i kao API putem više AI platformi.