Tencent Hunyuan predstavio je HunyuanOCR, model vizualnog jezika s 1 milijardom parametara, specijaliziran za optičko prepoznavanje znakova (OCR) i razumijevanje dokumenata. Ovaj model temelji se na Hunyuanovoj izvornoj multimodalnoj arhitekturi i omogućuje izvršavanje zadataka poput prepoznavanja, analize, ekstrakcije informacija, vizualnog odgovaranja na pitanja i prevođenja teksta iz slika kroz jedinstveni end-to-end proces.
HunyuanOCR predstavlja laganu alternativu općim modelima vizualnog jezika poput Gemini 2.5 i Qwen3 VL, a istovremeno se može usporediti s njima ili ih nadmašiti u zadacima usmjerenim na OCR. Ovaj model cilja na primjenu u stvarnom svijetu, uključujući analizu dokumenata, ekstrakciju podataka s kartica i računa, vađenje titlova iz videa te višekratno prevođenje dokumenata.
Arhitektura HunyuanOCR: Native Resolution ViT i Lagani LLM
HunyuanOCR koristi tri glavna modula: Native Resolution Visual Encoder poznat kao Hunyuan ViT, Adaptivni MLP Konektor i Lagani Jezični Model. Encoder se temelji na modelu SigLIP-v2-400M i proširen je kako bi podržao proizvoljne ulazne rezolucije putem adaptivnog dijeljenja koje očuva izvorni omjer stranica. Slike se dijele na dijelove prema njihovim izvornih proporcijama i obrađuju se s globalnom pažnjom, što poboljšava prepoznavanje dugih tekstualnih linija, dugih dokumenata i skenova niske kvalitete.
Adaptivni MLP Konektor provodi učenje na prostornoj dimenziji. On komprimira guste vizualne tokene u kraću sekvencu, dok zadržava informacije iz gustih tekstualnih područja. Ovaj pristup smanjuje duljinu sekvence koja se prosljeđuje jezičnom modelu i smanjuje računalne zahtjeve, a istovremeno očuva relevantne detalje za OCR.
Jezični model temelji se na gusto arhitektiranom Hunyuan 0.5B modelu i koristi XD RoPE. XD RoPE dijeli rotacijske pozicijske ugradnje u četiri podprostor za tekst, visinu, širinu i vrijeme. Ovaj pristup omogućuje modelu da prirodno uskladi redoslijed 1D tokena s 2D rasporedom i 3D prostorno-vremenskom strukturom. Kao rezultat, isti sustav može obraditi višekolonaste stranice, prijelaze između stranica i sekvence video okvira.
Obuka i inferencija slijede potpuno end-to-end paradigmu. Ne postoji vanjska analiza rasporeda ili model post-procesiranja u procesu. Svi zadaci izraženi su kao prirodni jezični upiti i obrađuju se u jednom prolazu. Ovaj dizajn uklanja propagaciju pogrešaka između faza procesa i pojednostavljuje implementaciju.

Podaci i Recept za Prethodnu Obuku
Podatkovni tok gradi više od 200 milijuna parova slika i teksta, kroz devet stvarnih scenarija, uključujući ulične prizore, dokumente, reklame, rukopisne tekstove, snimke zaslona, kartice i certifikate, račune, sučelja igara, video okvire i umjetničku tipografiju. Ova korpus pokriva više od 130 jezika.
Sintetički podaci dolaze iz višekratnog generatora koji podržava pisma s desna na lijevo i renderiranje na razini paragrafa. Podatkovni tok kontrolira font, jezik, rotaciju i RGB vrijednosti, te primjenjuje izobličenja, zamućenja i lokalne promjene osvjetljenja kako bi simulirao mobilne snimke i druge teške uvjete.
Prethodna obuka slijedi četiri faze. Prva faza provodi usklađivanje vizualnog jezika s čistim tekstom, sintetičkim podacima za parsiranje i prepoznavanje, te općim podacima o opisima, koristeći 50 milijardi tokena i 8k konteksta. Druga faza provodi multimodalnu prethodnu obuku na 300 milijardi tokena koji miješaju čisti tekst s sintetičkim uzorcima prepoznavanja, parsiranja, prevođenja i VQA uzoraka. Treća faza produžuje duljinu konteksta na 32k s 80 milijardi tokena usmjerenih na duge dokumente i dugačke tekstove. Četvrta faza je usmjerena na aplikacije i nadzornu finu obuku na 24 milijarde tokena s ljudski označenim i teškim negativnim podacima, zadržavajući 32k konteksta i jedinstvene predloške uputa.
Učenje s Pojačanjem s Provjerljivim Nagradama
Nakon nadzorne obuke, HunyuanOCR se dodatno optimizira putem učenja s pojačanjem. Istraživački tim koristi Group Relative Policy Optimization (GRPO) i postavku učenja s pojačanjem s provjerljivim nagradama za strukturirane zadatke. Za prepoznavanje teksta, nagrada se temelji na preklapanju kutija kombiniranih s normaliziranom udaljenosti uređivanja između teksta. Za parsiranje dokumenata, nagrada koristi normaliziranu udaljenost uređivanja između generirane strukture i referentne strukture.
Za VQA i prevođenje, sustav koristi LLM kao suca. VQA koristi binarnu nagradu koja provjerava semantičko podudaranje. Prevođenje koristi LLM za ocjenjivanje u stilu COMET s ocjenama u rasponu od [0, 5], normaliziranim na [0, 1]. Okvir obuke nameće ograničenja duljine i stroge formate, te dodjeljuje nultu nagradu kada izlazi iz okvira ili krši shemu, što stabilizira optimizaciju i potiče valjane JSON ili strukturirane izlaze.
Zaključak
HunyuanOCR predstavlja značajan korak naprijed u razvoju modela za optičko prepoznavanje znakova i razumijevanje dokumenata. Njegova sposobnost obrade višekratnih jezika i složenih dokumenata čini ga korisnim alatom za različite industrije, od financija do obrazovanja. S obzirom na trenutne trendove i potrebe tržišta, očekuje se da će HunyuanOCR imati široku primjenu i značajan utjecaj na način na koji se obrađuju i analiziraju dokumenti u digitalnom svijetu.
Česta Pitanja (FAQ)
Što je HunyuanOCR?
HunyuanOCR je model vizualnog jezika razvijen od strane Tencent Hunyuan, specijaliziran za optičko prepoznavanje znakova i razumijevanje dokumenata, s 1 milijardom parametara.
Koje su glavne funkcionalnosti HunyuanOCR-a?
Glavne funkcionalnosti uključuju prepoznavanje teksta, analizu dokumenata, ekstrakciju informacija, vizualno odgovaranje na pitanja i prevođenje teksta iz slika.
Kako HunyuanOCR poboljšava prepoznavanje dugih dokumenata?
Model koristi adaptivno dijeljenje slika i globalnu pažnju, što poboljšava prepoznavanje dugih tekstualnih linija i dokumenata niske kvalitete.
Koje jezike podržava HunyuanOCR?
HunyuanOCR pokriva više od 130 jezika, uključujući jezike koji se pišu s desna na lijevo.
Kako se HunyuanOCR trenira?
Trening se provodi kroz četiri faze, uključujući usklađivanje vizualnog jezika, multimodalnu prethodnu obuku, produženje konteksta i nadzornu finu obuku.













![Kako se male firme mogu pripremiti za zahtjeve NIS2 [Vodič za 2025.] 15 a friendly robot always at your disposal 2025 01 09 12 18 47 utc](https://umjetnai.com/wp-content/uploads/2025/02/a-friendly-robot-always-at-your-disposal-2025-01-09-12-18-47-utc-360x180.jpg)
![ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno] 16 chatgpt5](https://umjetnai.com/wp-content/uploads/2025/08/chatgpt5-360x180.webp)
![Što znači NIS2 direktiva i zašto je važna za IT sigurnost u Hrvatskoj [EU podrška za cybersecurity] 17 businessman with smart artificial intelligence ai 2024 10 11 03 45 41 utc](https://umjetnai.com/wp-content/uploads/2025/04/businessman-with-smart-artificial-intelligence-ai-2024-10-11-03-45-41-utc-360x180.jpg)

