Umjetna inteligencija prestiže stare testove: fokus se prebacuje na stvarni utjecaj

Najnovije izdanje izvješća AI Index Reporta, koje svake godine objavljuje Stanfordov institut za ljudsku umjetnu inteligenciju (HAI), donosi detaljan pregled područja umjetne inteligencije koje se razvija brže od alata kojima ga mjerimo. Napredak u području rasuđivanja, znanstvenih otkrića te sve veći ekološki otisak ukazuju na jasan trend: klasični benchmark testovi postali su zasićeni, ostavljajući malo prostora za razlikovanje vodećih svjetskih modela.

Ključni nalazi na prvi pogled

Napredni modeli ostvarili su skok od 30 postotnih bodova u samo jednoj godini na testu „Humanity’s Last Exam“, osmišljenom da nagradi ljudsku stručnost.
Podaci o ekološkom utjecaju pokazuju da je treniranje modela Grok 4 tvrtke XAI generiralo približno 72.816 metričkih tona ekvivalenta CO₂ – što je otprilike godišnja emisija 17.000 automobila.
Potrošnja energije podatkovnih centara za umjetnu inteligenciju dosegla je 29,6 GW, što je usporedivo s vršnom potražnjom cijele države New York.
Četiri vodeće tvrtke (Anthropic, Google, OpenAI i XAI) sada se na Arena ljestvici razlikuju za samo 25 Elo bodova.
Modeli otvorenog koda zauzeli su uži prostor, pri čemu zatvoreni model prednjači nad najboljim otvorenim modelom za 3,3 %, a šest od deset najboljih ostaje zatvoreno.
Specijalizirani modeli s 111 milijuna parametara nadmašuju opće divove u zadacima proteinske genomike.

Zasićenost benchmark testova objašnjena

Mjerenje napretka umjetne inteligencije putem benchmark testova dugo je služilo kao industrijski standard. Testovi poput onih koji mjere uspješnost GPT-4 na jezičnim obiteljima ili skupovima podataka za prepoznavanje slika pružaju javno vidljivu metriku napretka. Međutim, najnovije izvješće pokazuje da ove metrike, koje su nekoć razlikovale „dobro“ od „izvrsnog“, sada jedva odvajaju najbolje od drugoplasiranih.

Budući da se margina uspješnosti smanjuje na svega nekoliko Elo bodova, došlo je do promjene u konkurentskom pritisku. Tvrtke pronalaze ogranizeni povrat ulaganjem dodatne računalne snage kako bi ostvarile posljednje bodove. Umjesto toga, fokusiraju se na pouzdanost, objašnjivost i optimizaciju za specifične zadatke – elemente koje trenutne ljestvice ne obuhvaćaju.

Ekološki otisak i potrošnja energije

Sve veća moć umjetne inteligencije dolazi s cijenom za okoliš. Podaci iz izvješća naglašavaju značajnu potrošnju energije i emisije stakleničkih plinova povezane s treniranjem i radom velikih modela. Potrošnja energije podatkovnih centara za potrebe umjetne inteligencije usporediva je s vršnom potražnjom cijelih država, što postavlja pitanja o održivosti daljnjeg rasta bez odgovarajućih energetskih rješenja.

Pomak prema stvarnoj primjeni i specijalizaciji

S obzirom na zasićenost tradicionalnih testova, industrija umjetne inteligencije sve više usmjerava svoju pozornost na praktičnu primjenu i utjecaj u stvarnom svijetu. To znači da se tvrtke i istraživači sve više fokusiraju na razvoj modela koji mogu riješiti konkretne probleme, poboljšati postojeće procese i donijeti mjerljivu korist. Specijalizirani modeli, iako manji, pokazuju iznimnu učinkovitost u usko definiranim područjima, često nadmašujući veće, općenitije modele.

Ovaj pomak također potiče razvoj modela otvorenog koda, iako zatvoreni modeli i dalje drže prednost u nekim aspektima. Konkurencija se sve više odvija na polju pouzdanosti, sigurnosti i sposobnosti prilagodbe specifičnim potrebama korisnika i industrija.

Što ovo znači za budućnost?

Kraj utrke za bodove na akademskim testovima signalizira novu eru u razvoju umjetne inteligencije. Fokus će se pomaknuti s puke računalne snage i sintetičkih mjerenja na