Mobilna tehnologija Računalstvo Tehnologija

Google LiteRT NeuroPilot: Kako MediaTek Dimensity NPU‑ovi omogućuju LLM‑ove na uređaju

09.12.2025.

202

Uvod U svijetu edge AI tehnologija, LiteRT NeuroPilot predstavlja ključni prekretnicu koja mijenja način na koji generativni modeli rade na pametnim telefonima, laptopima i IoT uređajima. Ovaj novi LiteRT NeuroPilot Accelerator od Googlea i MediaTek omogućuje da se LLM‑ovi (large language models) i embedding modeli izvršavaju izravno na MediaTek Dimensity čipovima, bez potrebe za slanjem podataka u oblak.

Uvod

U svijetu edge AI tehnologija, LiteRT NeuroPilot predstavlja ključni prekretnicu koja mijenja način na koji generativni modeli rade na pametnim telefonima, laptopima i IoT uređajima. Ovaj novi LiteRT NeuroPilot Accelerator od Googlea i MediaTek omogućuje da se LLM‑ovi (large language models) i embedding modeli izvršavaju izravno na MediaTek Dimensity čipovima, bez potrebe za slanjem podataka u oblak. U nastavku otkrivamo što LiteRT NeuroPilot točno jest, kako pojednostavljuje rad developera i koje prednosti donosi krajnjim korisnicima.

Što je LiteRT NeuroPilot Accelerator?

LiteRT NeuroPilot Accelerator je najnoviji dodatak Googleovom LiteRT runtime‑u koji omogućuje izravnu integraciju s MediaTekovim NPU (Neural Processing Unit) stack‑om. Dok je LiteRT naslijeđeni TensorFlow Lite runtime, sada podržava CPU, GPU i, najvažnije, MediaTek Dimensity NPU‑ove putem jedinstvenog hardware acceleration layer‑a.

Arhitektura i tehnološki temelj

U tradiciji, NPU SDK‑ovi su dolazili od proizvođača čipova i zahtijevali su poseban kod za svaki SoC. LiteRT NeuroPilot eliminira taj fragment „šifriranja” tako što koristi Compiled Model API koji razumije AOT (Ahead‑Of‑Time) kompilaciju i on‑device kompilaciju. Modeli u .tflite formatu se učitavaju jednim pozivom, a LiteRT NeuroPilot automatski odabire optimalni uređaj – NPU, GPU ili CPU – ovisno o dostupnosti.

Podržane platforme i SoC‑ovi

Trenutna implementacija cilja sljedeće MediaTek Dimensity čipove:

Dimensity 7300
Dimensity 8300
Dimensity 9000
Dimensity 9200
Dimensity 9300
Dimensity 9400
Dimensity 9500 (najnoviji flagship čip)

Ovi SoC‑ovi pokrivaju veliki dio Android tržišta – od srednje klase do vrhunskih uređaja – što LiteRT NeuroPilot čini vrlo relevantnim za široku publiku.

Zašto je ovo važno za developere?

Kada razvijate LLM‑ove za mobilne uređaje, najčešći izazovi su fragmentacija hardware‑a i komplikacije oko različitih SDK‑ova. LiteRT NeuroPilot rješava sve to pružajući jedinstveni radni tok koji se ne mijenja bez obzira na koji MediaTek NPU se radi.

Jedinstveni radni tok nasuprot fragmentiranim NPU‑ima

Tradicionalni proces izgledao je ovako:

Pronaći specifični SDK za svaki SoC.
Komponirati poseban delegate kod za NPU.
Ubaciti različite binarne datoteke u aplikaciju.

S LiteRT NeuroPilot Accelerator radni tok se svodi na tri koraka, neovisno o točnom čipu:

Učitaj .tflite model kao i do sada.
Upotrijebi LiteRT Python alate za AOT kompilaciju i generiraj AI Pack koji je vezan uz ciljane SoC‑ove.
Distribuiraj AI Pack putem Play for On‑device AI (PODAI) i odaberi Accelerator.NPU u runtime‑u.

Isti kod ostaje nepromijenjen; sve što mijenjaš je konfiguracijska datoteka koja definira podržane uređaje.

Kompatibilnost s TensorFlow Lite i drugim okvirima

Budite sigurni – LiteRT NeuroPilot ne zamjenjuje TensorFlow Lite, nego ga nadograđuje. Modeli iz PyTorch‑a, ONNX‑a ili Hugging Face‑a mogu se najprije pretvoriti u .tflite format, a zatim izrokirati putem LiteRT. To znači da razvojni timovi ne moraju mijenjati postojeću infrastrukturnu bazu, a mogu odmah iskoristiti prednosti MediaTek NPU‑ova.

Primjeri upotrebe: LLM‑i i embedding modeli na MediaTek NPU‑ovima

Kako bi LiteRT NeuroPilot dokazao svoju vrijednost, Google i MediaTek su testirali nekoliko otvorenih modela koji su se pokazali izuzetno učinkoviti na Dimensity čipovima.

Gemma‑3‑270M i Gemma‑3‑1B

Modeli iz Google‑ove Gemma serije popularni su zbog male veličine i visoke prilagodljivosti. Gemma‑3‑270M postiže oko 1 200 tokena po sekundi u prefill fazi na Dimensity 9500, dok Gemma‑3‑1B odvaja otprilike 800 tokena po sekundi. Oba modela su odlična za zadatke poput analize sentimenta, ekstrakcije entiteta i kratkih rezimea.

Qwen‑3‑0.6B za kinesko tržište

U Kini, Qwen‑3‑0.6B predstavlja vodeći izbor za tekstualnu generaciju. Na Dimensity 9000, model postiže 1 450 tokena po sekundi u prefill i 35 tokena po sekundi u decode fazi uz kontekst od 4 K tokena, što je dovolјno za izradu lokaliziranih chatbota i generativnih aplikacija.

EmbeddingGemma 300M i RAG primjene

Za pretraživanje semantičkog značenja i retrieval‑augmented generation (RAG), EmbeddingGemma 300M proizvodi vektorske reprezentacije od 768 dimenzija u manje od 5 ms po upitu. Kombinacija LiteRT NeuroPilot i EmbeddingGemma omogućuje offline semantičko pretraživanje u aplikacijama poput pametnih asistenata i preporučivačkih sustava.

Prednosti i nedostaci korištenja LiteRT NeuroPilot na Edge‑uređajima

Prednosti (pros)

Jednostavan radni tok: jedinstvena API‑ja zamjenjuje višestruke SDK‑ove.
Visoka propusnost: NPU omogućuje do 1 600 tokena/s u prefill fazi.
Energetska učinkovitost: NPU troši do 70 % manje energije od GPU‑a pri istom opterećenju.
Privatnost podataka: Svi izračuni se odvijaju na uređaju, što smanjuje rizik od curenja podataka.
Skalabilnost: AI Pack se može distribuirati kroz PODAI na milijune uređaja automatski.

Nedostaci (cons)

Ograničenja memorije: NPU‑ovi imaju manju RAM‑kapacitet od CPU‑a, što otežava rad s vrlo velikim modelima.
Latencija AOT kompilacije: Iako smanjena, početna AOT kompilacija zahtijeva 10‑15 minuta na razvojnom računalu za najveće modele.
Podrška za specifične modele: Nisu svi najnoviji state‑of‑the‑art modeli još certificirani za LiteRT NeuroPilot.
Hardware lock‑in: Trenutačna implementacija radi samo na MediaTek Dimensity SoC‑ovima, što ograničava cross‑platform primjenu.

Kako započeti: Korak‑po‑korak vodič za developere

Instalacija i postavljanje okruženja

1. Preuzmite najnoviji LiteRT SDK i instalirajte ga putem pip install litert ili sdkmanager za Android Studio.
2. Potvrdite da vaš uređaj koristi podržani MediaTek Dimensity čip koristeći adb shell getprop ro.board.platform.
3. Aktivirajte NeuroPilot NPU u AndroidManifest.xml dodavanjem <uses-feature android:name="android.hardware.neuropilot" android:required="true"/>.

Kompilacija modela (AOT i on‑device)

Za AOT kompilaciju pokrenite sljedeću Python skriptu:

import litert
model = litert.load_tflite("gemma_270M.tflite")
compiled = model.compile(target="dimensity9500", mode="aot")
compiled.save("gemma_aot.ai")

Za on‑device kompilaciju, jednostavno pošaljite .tflite model uz CompiledModel API i dopustite LiteRT-u da ga optimizira na uređaju pri prvom pokretanju.

Distribucija kroz Play for On‑device AI (PODAI)

PODAI omogućuje da AI Pack bude dovučen na uređaj zajedno s ostalim resursima aplikacije. U Google Play Console odaberite “On‑device AI” sekciju, učitajte .ai paket, te definirajte target SoC‑ove. Kad korisnik instalira aplikaciju, Play automatski preuzima odgovarajući paket za njegov uređaj.

Zaključak

LiteRT NeuroPilot Accelerator donosi dugoočekivanu integraciju MediaTek Dimensity NPU‑ova i LLM‑ova na mobilnim uređajima. Zahvaljujući jedinstvenom radnom toku, razvijatelji sada mogu lako implementirati velike generativne modele, osigurati privatnost podataka i smanjiti potrošnju energije. Iako postoje izazovi oko memorijskog limita i ekskluzivnosti za MediaTek čipove, prednosti – brzina, skalabilnost i jednostavnost – čine LiteRT NeuroPilot ključnim alatom za budućnost on‑device AI.

FAQ

Što je LiteRT NeuroPilot Accelerator? To je dodatak Googleovom LiteRT runtime‑u koji omogućuje izravno pokretanje modela na MediaTek Dimensity NPU‑ovima putem jedinstvene API surface.
Koje modele podržava? Trenutačno su certificirani modeli Gemma‑3‑270M, Gemma‑3‑1B, Qwen‑3‑0.6B, EmbeddingGemma 300M i drugi otvoreni LLM‑ovi.
Treba li mi AOT ili on‑device kompilacija? AOT je idealna za veće modele jer smanjuje latenciju pri prvom pokretanju, dok je on‑device kompilacija pogodna za male modele i brze prototipe.
Kako distribuiraću model? Kroz Play for On‑device AI (PODAI) paket koji automatski odabire pravi AI Pack za korisnikov SoC.
Je li LiteRT NeuroPilot dostupan i za iOS? Trenutno je ekskluzivan za Android platformu i MediaTek hardware.
Koje su glavne prednosti u odnosu na GPU? NPU postiže do 70 % manje potrošnje energije i višestruko veću propusnost za matrične operacije, što je kritično za generativne modele.
Može li se koristiti u kombinaciji s drugim AI okvirima? Da, modeli iz PyTorch, ONNX ili Hugging Face mogu se konvertirati u .tflite i potom koristiti kroz LiteRT NeuroPilot.
Jesu li podaci sigurni? Budući da se sve izračune odvijaju na uređaju, ne morate slati osjetljive informacije u oblak, čime se značajno smanjuje rizik od curenja podataka.