Tehnologija Umjetna inteligencija Vijesti

HunyuanOCR: Novi OCR Model s 1B Parametara za Razumijevanje Dokumenata

30.11.2025.

196

Tencent Hunyuan predstavio je HunyuanOCR, model vizualnog jezika s 1 milijardom parametara, specijaliziran za optičko prepoznavanje znakova (OCR) i razumijevanje dokumenata.

Tencent Hunyuan predstavio je HunyuanOCR, model vizualnog jezika s 1 milijardom parametara, specijaliziran za optičko prepoznavanje znakova (OCR) i razumijevanje dokumenata. Ovaj model temelji se na Hunyuanovoj izvornoj multimodalnoj arhitekturi i omogućuje izvršavanje zadataka poput prepoznavanja, analize, ekstrakcije informacija, vizualnog odgovaranja na pitanja i prevođenja teksta iz slika kroz jedinstveni end-to-end proces.

HunyuanOCR predstavlja laganu alternativu općim modelima vizualnog jezika poput Gemini 2.5 i Qwen3 VL, a istovremeno se može usporediti s njima ili ih nadmašiti u zadacima usmjerenim na OCR. Ovaj model cilja na primjenu u stvarnom svijetu, uključujući analizu dokumenata, ekstrakciju podataka s kartica i računa, vađenje titlova iz videa te višekratno prevođenje dokumenata.

Screenshot 2025 11 26 at 10.49.10 AM 1 — Izvor: HunyuanOCR Tehnički Izvještaj

Arhitektura HunyuanOCR: Native Resolution ViT i Lagani LLM

HunyuanOCR koristi tri glavna modula: Native Resolution Visual Encoder poznat kao Hunyuan ViT, Adaptivni MLP Konektor i Lagani Jezični Model. Encoder se temelji na modelu SigLIP-v2-400M i proširen je kako bi podržao proizvoljne ulazne rezolucije putem adaptivnog dijeljenja koje očuva izvorni omjer stranica. Slike se dijele na dijelove prema njihovim izvornih proporcijama i obrađuju se s globalnom pažnjom, što poboljšava prepoznavanje dugih tekstualnih linija, dugih dokumenata i skenova niske kvalitete.

Adaptivni MLP Konektor provodi učenje na prostornoj dimenziji. On komprimira guste vizualne tokene u kraću sekvencu, dok zadržava informacije iz gustih tekstualnih područja. Ovaj pristup smanjuje duljinu sekvence koja se prosljeđuje jezičnom modelu i smanjuje računalne zahtjeve, a istovremeno očuva relevantne detalje za OCR.

Jezični model temelji se na gusto arhitektiranom Hunyuan 0.5B modelu i koristi XD RoPE. XD RoPE dijeli rotacijske pozicijske ugradnje u četiri podprostor za tekst, visinu, širinu i vrijeme. Ovaj pristup omogućuje modelu da prirodno uskladi redoslijed 1D tokena s 2D rasporedom i 3D prostorno-vremenskom strukturom. Kao rezultat, isti sustav može obraditi višekolonaste stranice, prijelaze između stranica i sekvence video okvira.

Obuka i inferencija slijede potpuno end-to-end paradigmu. Ne postoji vanjska analiza rasporeda ili model post-procesiranja u procesu. Svi zadaci izraženi su kao prirodni jezični upiti i obrađuju se u jednom prolazu. Ovaj dizajn uklanja propagaciju pogrešaka između faza procesa i pojednostavljuje implementaciju.

Podaci i Recept za Prethodnu Obuku

Podatkovni tok gradi više od 200 milijuna parova slika i teksta, kroz devet stvarnih scenarija, uključujući ulične prizore, dokumente, reklame, rukopisne tekstove, snimke zaslona, kartice i certifikate, račune, sučelja igara, video okvire i umjetničku tipografiju. Ova korpus pokriva više od 130 jezika.

Sintetički podaci dolaze iz višekratnog generatora koji podržava pisma s desna na lijevo i renderiranje na razini paragrafa. Podatkovni tok kontrolira font, jezik, rotaciju i RGB vrijednosti, te primjenjuje izobličenja, zamućenja i lokalne promjene osvjetljenja kako bi simulirao mobilne snimke i druge teške uvjete.

Screenshot 2025 11 26 at 10.51.26 AM 1 — Izvor: HunyuanOCR Tehnički Izvještaj

Prethodna obuka slijedi četiri faze. Prva faza provodi usklađivanje vizualnog jezika s čistim tekstom, sintetičkim podacima za parsiranje i prepoznavanje, te općim podacima o opisima, koristeći 50 milijardi tokena i 8k konteksta. Druga faza provodi multimodalnu prethodnu obuku na 300 milijardi tokena koji miješaju čisti tekst s sintetičkim uzorcima prepoznavanja, parsiranja, prevođenja i VQA uzoraka. Treća faza produžuje duljinu konteksta na 32k s 80 milijardi tokena usmjerenih na duge dokumente i dugačke tekstove. Četvrta faza je usmjerena na aplikacije i nadzornu finu obuku na 24 milijarde tokena s ljudski označenim i teškim negativnim podacima, zadržavajući 32k konteksta i jedinstvene predloške uputa.

Učenje s Pojačanjem s Provjerljivim Nagradama

Nakon nadzorne obuke, HunyuanOCR se dodatno optimizira putem učenja s pojačanjem. Istraživački tim koristi Group Relative Policy Optimization (GRPO) i postavku učenja s pojačanjem s provjerljivim nagradama za strukturirane zadatke. Za prepoznavanje teksta, nagrada se temelji na preklapanju kutija kombiniranih s normaliziranom udaljenosti uređivanja između teksta. Za parsiranje dokumenata, nagrada koristi normaliziranu udaljenost uređivanja između generirane strukture i referentne strukture.

Za VQA i prevođenje, sustav koristi LLM kao suca. VQA koristi binarnu nagradu koja provjerava semantičko podudaranje. Prevođenje koristi LLM za ocjenjivanje u stilu COMET s ocjenama u rasponu od [0, 5], normaliziranim na [0, 1]. Okvir obuke nameće ograničenja duljine i stroge formate, te dodjeljuje nultu nagradu kada izlazi iz okvira ili krši shemu, što stabilizira optimizaciju i potiče valjane JSON ili strukturirane izlaze.

Zaključak

HunyuanOCR predstavlja značajan korak naprijed u razvoju modela za optičko prepoznavanje znakova i razumijevanje dokumenata. Njegova sposobnost obrade višekratnih jezika i složenih dokumenata čini ga korisnim alatom za različite industrije, od financija do obrazovanja. S obzirom na trenutne trendove i potrebe tržišta, očekuje se da će HunyuanOCR imati široku primjenu i značajan utjecaj na način na koji se obrađuju i analiziraju dokumenti u digitalnom svijetu.

Česta Pitanja (FAQ)

Što je HunyuanOCR?

HunyuanOCR je model vizualnog jezika razvijen od strane Tencent Hunyuan, specijaliziran za optičko prepoznavanje znakova i razumijevanje dokumenata, s 1 milijardom parametara.

Koje su glavne funkcionalnosti HunyuanOCR-a?

Glavne funkcionalnosti uključuju prepoznavanje teksta, analizu dokumenata, ekstrakciju informacija, vizualno odgovaranje na pitanja i prevođenje teksta iz slika.

Kako HunyuanOCR poboljšava prepoznavanje dugih dokumenata?

Model koristi adaptivno dijeljenje slika i globalnu pažnju, što poboljšava prepoznavanje dugih tekstualnih linija i dokumenata niske kvalitete.

Koje jezike podržava HunyuanOCR?

HunyuanOCR pokriva više od 130 jezika, uključujući jezike koji se pišu s desna na lijevo.

Kako se HunyuanOCR trenira?

Trening se provodi kroz četiri faze, uključujući usklađivanje vizualnog jezika, multimodalnu prethodnu obuku, produženje konteksta i nadzornu finu obuku.