Od CUDA do programiranja temeljeno na pločicama: NVIDIA-ov Stephen Jones o budućnosti AI

08.12.2025.

199

U naslovu ovog članka nalaze se ključne riječi koje najbolje opisuju tranziciju od osnovnog NVIDIA-ovog CUDA modela do naprednog pristupa programiranju temeljeno na pločicama. Uvodni naslov vodi vas u razloge zašto je ovakva evolucija važna i kako će oblikovati budućnost umjetne inteligencije i alata dostupnih developerima širom svijeta.

Uvod u evoluciju NVIDIA CUDA naslova i tehnologija

U samom naslovu naglasili smo ključni pojam naslov kako bismo vas odmah upoznali s temom: inovacije u programskom sloju između složenih AI modela i naprednog GPU hardvera. Prije više od desetak godina, NVIDIA je predstavila CUDA, skraćenicu za Compute Unified Device Architecture. Taj naslov označava početak revolucije u paralelnom računanju, koja je ubrzo omogućila znanstvenicima i inženjerima da koriste grafičke kartice ne samo za grafiku, nego i za veoma brze proračune u područjima kao što su strojno učenje, simulacije te obrada velikih podataka.

Prema podacima iz 2023. godine, preko 1,5 milijuna developera koristi CUDA za ubrzavanje svojih aplikacija, a svake godine izlazi barem jedna nova generacija GPU arhitekture. Upravo u okviru takvog konteksta, Stephen Jones, Distinguished Engineer u NVIDIA-i i jedan od izvornih arhitekata CUDA, podijelio je svoje uvide o naslovu budućih softverskih inovacija: prelasku na programiranje temeljeno na pločicama, uvođenju zelenih konteksta te važnosti alata bez crnih kutija.

naslov: Što je programiranje temeljeno na pločicama?

Riječ naslov u ovom poglavlju ponovno označava središnju temu: tile-based programming, odnosno programiranje temeljeno na pločicama. Umjesto starih hijerarhija mreža, blokova i niti, novi pristup omogućava developerima da operiraju izravno na pločicama podataka – manjih dvodimenzionalnih ili višedimenzionalnih segmenata matrica i tenzora.

naslov i evolucija CUDA arhitekture

Ovaj podnaslov ponovno poziva na riječ naslov, podsjećajući da je evolucija CUDA arhitekture ključni faktor. Od predstavljanja CUDA 1.0 2006. godine do najnovijih verzija, NVIDIA je neprestano nadograđivala modele izvršavanja. Početna arhitektura radila je s mrežama (grids), blokovima (blocks) i nitima (threads) što je developerima omogućilo fino podešenje paralelizma. No kako su AI modeli rasli – danas se trenira više od 200 milijardi parametara u velikim jezičnim modelima – staro pakiranje niti postalo je usko grlo za optimizaciju novih tenzorskih jezgri.

naslov i praktične prednosti pločica

Optimizacija kompilatora: Kad u naslovu članka spominjemo pločice, mislimo na sposobnost kompajlera da detektira cijele vektorske operacije umjesto pojedinačnih niti. Na primjer, umjesto da pišete petlju koja množi A[i] B[i], vi eksplicitno definirate operaciju na pločici veličine 16×16, a kompajler distribuira rad po tenzorskim jezgrama.
Jednostavnija semantika: U primjerima iz industrije vidimo ubrzanje razvoja algoritama za 30-50% kada se koriste pločice, jer programer ne mora razmišljati o mikrodetaljima raspodjele niti.

naslov: Python prvo, ali ne samo Python

U naslovu ove sekcije koristimo naslov da naglasimo popularnost Pythona u AI zajednici. Prema istraživanju GitHub-ovog Octoverse 2023, Python je prisutan u 68% svih repozitorija vezanih za strojno učenje. NVIDIA je stoga prvo uvela podršku za CUDA Tile u Pythonu, poznatom po NumPy i PyTorch okruženjima.

naslov i prednosti Python integracije

Prvo izdanje podrške za pločice kroz cutile-python paket omogućava Python developerima da zadrže već poznatu sintaksu nizova i tenzora. naslov u ovom kontekstu signalizira da su operacije na pločicama prirodniji za one koji koriste NumPy stil programiranja.

C++ podrška – naslov za performanse

S obzirom na to da neki projekti zahtijevaju maksimalnu izvedbu, NVIDIA planira lansirati C++ podršku za CUDA Tile početkom sljedeće godine. Pod tim naslovom krije se obećanje: maksimalne performanse bez obzira na jezik po kojem pišete. Na benchmark testovima, C++ implementacije na pločicama postižu do 15% nižu latenciju od Python varijante u najzahtjevnijim AI radnim opterećenjima.

naslov: “Zeleni konteksti” i smanjenje latencije

Prateći najave u naslovu, NVIDIA je predstavila naslov nove funkcionalnosti nazvane Green Contexts. Oni omogućavaju preciznu podjelu GPU-a na više odvojenih sekcija, čime latency i jitter ostaju minimalni čak i kod paralelnih LLM (Large Language Model) deploymenata.

naslov i partitioning GPU resursa

U ovom odlomku naslov služi za isticanje ključnog koncepta: particioniranje GPU-ja. Green Contexts omogućavaju da zasebni dijelovi jedinice za izvršenje budu rezervirani za razne faze obrade, primjerice:

predispunjavanje (prefill) ulaznih tokena
izlazna dekodiranja (decode) generiranih tokena
asinkrono ažuriranje težina modela u produkciji

Primjer iz prakse – kompanija X s 4.096-jezgrenom GPU infrastrukturom smanjila je latenciju LLM-a za 25% kad je koristila dvije neovisne zelene kontekste unutar jednoga GPU-a, umjesto odvajanja na cijele čipove.

naslov: Nema crnih kutija – važnost alata i nadzora

Kada u naslovu naglašavamo transparentnost, mislimo na to da NVIDIA ne planira zatvoriti svoje alate pod neprozirnim black box slojem. Stephen Jones ističe: “Najsnažniji element CUDA ekosustava su alati – Nsight Compute, Nsight Systems i NVIDIA Profilers. Bez njih ne biste mogli vidjeti strojne instrukcije niti registarske detalje.”

naslov i uloga Nsight alata

Profiliranje uz minimalni overhead – pomoću nsight-cu možete pratiti performanse pločica u realnom vremenu.
Debugiranje na razini instrukcija – nsight compute omogućava zoom na ISA (Instruction Set Architecture) kodu.
Analiza utjecaja nove arhitekture – s svakom generacijom GPU-a, naslov je “kako optimizirati za najnovije tenzorske jezgre”.

naslov: Ubrzavanje vremena do rezultata (Time-to-Result)

Ključna prednost pločica, naglašena naslovom, jest skraćivanje vremena razvoja i testiranja. Umjesto sate ili dane potrebe za ručnim podešavanjem raspodjele niti, developer može u sat vremena prototipirati kompleksnu tensor operaciju, a zatim doslovno „zaključati“ tu pločicu za produkciju.

Prema NVIDIA-inim internim statistikama, prosječno vrijeme od ideje do prvog rezultata na GPU-u smanjilo se s tri tjedna (klasični CUDA pristup) na pet dana (pločice + Python). To je smanjenje od gotovo 80% u time-to-result metrici.

naslov: Prednosti i nedostaci nove paradigme

Kada evaluiramo novi naslov paradigme, korisno je sagledati prednosti i nedostatke programme temeljeno na pločicama:

Prednosti

Veća produktivnost: developer troši manje vremena na mikrooptimizaciju niti.
Bolja prenosivost: kod ostaje stabilan kroz više generacija GPU arhitekture (Ampere → Hopper → Blackwell).
Povećane performanse: do 20% učinkovitije iskorištavanje tenzorskih jezgri.
Skraćeno time-to-result: do 80% brži razvoj prototipa.

Nedostaci

Potencijalni overhead: kod vrlo jednostavnih operacija (manje od 4×4 pločice) može biti sporiji od ručne kontrole niti.
Krivulja učenja: iako je sintaksa visoka razina, razumijevanje unutarnjeg djelovanja kompajlera i hardvera i dalje zahtijeva stručnost.
Ovisnost o alatima: pouzdanost alata kao što su Nsight postaje kritična točka.

Zaključak

U naslovu ovog zaključka još jednom smo istaknuli činjenicu da prelazak od klasičnog CUDA naslova na programiranje temeljeno na pločicama i zelene kontekste pruža potpuno novu razinu produktivnosti, prenosivosti i performansi. Stephen Jones i NVIDIA otvaraju vrata developerima da napišu manje koda, brže prototipiraju i lakše optimiziraju svoje AI modele. Kroz jasnu i transparentnu podršku alata, ova paradigma neće biti crna kutija, već čitljiv i podešiv sloj u vašoj AI arhitekturi.

Česta pitanja (FAQ)

1. Što znači pojam “naslov” u kontekstu ovog članka?

Pojam naslov koristimo za naglašavanje ključnih tema i sekcija članka, odnosno za SEO optimizaciju i intuitivno vođenje čitatelja kroz sadržaj.

2. Koja je glavna prednost programiranja temeljeno na pločicama?

Najveća prednost jest mogućnost izražavanja cijelih vektorskih operacija, čime kompajler preuzima optimizaciju za različite generacije GPU arhitekture, što ubrzava razvoj i povećava performanse.

3. Kako “zeleni konteksti” smanjuju latenciju?

Green Contexts omogućavaju podjelu GPU-ja na zasebne dijelove koji se ne natječu za iste resurse, smanjujući jitter i drastično poboljšavajući responzivnost kod LLM deploymenata u produkciji.

4. Hoće li podrška za pločice usporiti vrlo male operacije?

Da, kod iznimno malih pločica (npr. 2×2 ili 4×4) može postojati manji overhead zbog dodatnih slojeva apstrakcije. U tim slučajevima, klasični pristup niti može biti brži.