AI integracija Google Gemini Vijesti i novosti

Google Gemini Robotics 1.5 donosi AI agente u stvarni svijet

03.10.2025.

208

Zamislite robote koji ne samo slušaju naredbe, nego i razmišljaju, planiraju i koriste alate kako bi obavili složene zadatke u stvarnom okruženju. U tome smjeru Google DeepMind razvija i uvodi Gemini Robotics 1.5, naprednu skupinu AI modela namijenjenih robotici koja omogućuje (agentske) aktivnosti u fizičkom svijetu. Ovaj korak znači da roboti mogu percipirati okruženje, stvarati planove i provoditi ih uz dinamičko prilagođavanje, što ih čini sposobnima izvoditi multi‑task zadatke na načine koji do sada nisu bili mogući.

Dvije ključne komponente: tko radi, a tko razmišlja

Gemini Robotics-ER 1.5 (Embodied Reasoning): Ovo je najučinkovitiji model za “razmišljanje” unutar fizičkih okvira. Zadužen je za planiranje, donošenje logičkih odluka i razumijevanje prostora. Svojim naprednim prostornim shvaćanjem, mogućnošću komunikacije na prirodnom jeziku i procjenom uspjeha i napretka, on funkcionira kao visokorizni mozak robota. Može nativno pozivati alate poput pretraživanja na internetu da se informira ili koristiti prilagođene vanjske funkcije.
Gemini Robotics 1.5 (Vision-Language-Action, VLA): Ovaj model pretvara viziju i jezik u konkretne akcije. Zamisao je da roboti ne budu samo pratitelji uputa, nego da u stvarnom vremenu razmišljaju i daju detaljne, višekorazinske planove za izvršenje zadataka. Kombinira viziju i jezik kako bi generirao složene naredbe za pokretanje i korake potrebne za dovršetak misije.

Kako ti modeli rade zajedno

Zamisao iza Gemini Robotics 1.5 zasniva se na agentičkom okviru gdje dva modela rade kao koordinirani sustav:

EMODI: Gemini Robotics-ER 1.5 upravlja visokom razinom planiranja i strateškom odlučnošću unutar fizičkog konteksta. On razložno procjenjuje situacije, odabire pristup i kreira tijek djelovanja.
GLAS: Gemini Robotics 1.5 potom koristi prirodni jezik i viziju za konvertiranje plana u niz konkretnih pokreta i operacija robota. On prima upute iz ER 1.5 i prevede ih u akcijske korake koje robot izvodi.
Dodatna snaga: oba modela mogu koristiti digitalne alate poput Google Searcha ili drugih specijaliziranih alata i funkcija trećih strana. To znači da robot može “tražiti” potrebne informacije iIntegrirati ih u postupak, bez potrebe za ručnim prilagodbama.
Transparentnost misli: Gemini Robotics 1.5 može pokazati svoje unutarnje razmišljanje na prirodan način, što pomaže ljudima da razumiju zašto robot donosi određene odluke. To povećava povjerenje i olakšava suradnju s ljudskim korisnicima.

Zašto je ovo važno: od planova do djela u stvarnom svijetu

Biramo ovo putovanje jer mnogi svakodnevni zadaci zahtijevaju kontekstualne informacije i više raznih koraka. Primjeri su brojni: mreža lokalnih pravila o otpadu može se razlikovati po gradu, pa robot mora razumjeti gdje treba sortirati plastiku, papir ili mješovito smeće. Da bi to postigao, robot treba tražiti relevantne lokalne smjernice, identificirati predmete pred sobom i zatim provesti cijeli niz operacija za pravilno odlaganje. Gemini Robotics 1.5 rješava ovaj izazov kroz suradnju ER 1.5 i 1.5 modela, koji zajedno upravljaju složenim, višekorakom zadacima.

Primjene i konkretni scenariji

Domaće i maloprodajne primjene: pametni roboti u kućama ili trgovinama mogu sortirati predmete, spremati posuđe, sastavljati jednostavan namještaj ili pripremiti prostor za sljedeće zadatke.
Industrijski radni zadaci: u skladištima, roboti s Gemini tehnologijom mogu navigirati prometnim područjima, provoditi identifikacije predmeta, sortirati ih i pripremati za daljnju obradu ili paketiranje.
Laboratorijski i istraživački kontekst: roboti mogu asistirati u sigurnim eksperimentima, mapirati prostor, prepoznati predmete i reagirati na promjene u okruženju.
Obrazovanje i istraživanje: studenti i istraživači mogu koristiti ove modele za učenje o robotici i umjetnoj inteligenciji kroz praktične demonstracije i eksperimente u realnom svijetu.

Učenje kroz različite oblike (embodied reasoning model)

Jedan od isticanih postignuća Gemini Robotics 1.5 je kapacitet za “učenje preko različitih embodimenata” – sposobnost da znanje i pokrete stečene na jednom tipu robota prenese na drugi, bez potrebe za zasebnim prilagodbama. To znači da vještine naučene na jednom stroju mogu biti primjenjene na drugom, što ubrzava učenje novih ponašanja i čini robote svestranijima. Kao primjer, zadaci kojima je model bio izložen tijekom treninga na humanoidnim ili robotskim sustavima mogu se primijeniti i na druge robote bez odvećeg prilagođavanja.

Bez sigurnosti i etike nema napretka: sigurnost i odgovornost
Kako bismo osigurali da umjetna inteligencija u robotici bude korisna i sigurna za ljude, uspostavljene su Systems i procesi za sigurnost i usklađenost:

Odgovorna zajednica i razvoj: Tijekom razvoja uključene su torbe za sigurnost i usklađenost, s ciljem da se AI modeli kreiraju prema načelima sigurnosti i etike.
Semantički sigurnosni okviri: Uvodi se poboljšani ASIMOV benchmark koji obuhvaća različite sklopove podataka za ocjenu semantičke sigurnosti, boljeg označavanja i novih tipova sigurnosnih pitanja uz podršku video modaliteta. Ovo pomaže u provjeri kako modeli razumiju kontekst, rizike i kako postupaju u sigurnosnim situacijama.
Sigurnost prije svega: U procesu sigurnosnih evaluacija, Gemini Robotics-ER 1.5 postiže vodeće rezultate i značajno doprinosi dubljem razumijevanju semantičke sigurnosti te pridržavanju fizičkih sigurnosnih ograničenja.
Strateško vodstvo: Timovi za sigurnost, etiku i odgovoran razvoj surađuju s Robotic timom kako bi daljnji rad na modelima bio usklađen s načelima i pravilima.

Kako se može pristupiti i koristiti Google Gemini Robotics 1.5

Dostupnost: Gemini Robotics 1.5 trenutno je dostupna odabranim partnerima putem Gemini API‑ja u Google AI Studio.
Razvojna potpora: Za programere i tvrtke koje žele dublje istraživanje, postoji Developer blog s detaljima o tome kako integrirati i graditi s novim mogućnostima.
Sigurnost i evaluacija: Sigurnosne procjene i pokrivenost podataka provode se kroz sustave poput ASIMOV benchmarka kako bi se osigurala visoka razina sigurnosti i pouzdanosti.

Prekretnica na putu prema AGI u fizičkom svijetu

Gemini Robotics 1.5 predstavlja važan korak na putu prema općenitoj umjetnoj inteligenciji u fizičkim okruženjima. Uvođenjem agentičkih sposobnosti prelazimo s modela koji reagiraju na naredbe na modele koji mogu samostalno razmišljati, planirati, koristiti alate te se generalizirati na složene zadatke i raznolika okruženja. To je temeljni korak ka robotima koji se mogu lakše snalaziti u složenim uvjetima i biti pouzdani partneri u svakodnevnom životu i industriji.

Zahvale i suradnja
Ovo ostvarenje rezultat je rada brojnih inženjera, istraživača i partnera koji su pridonijeli razvoju Gemini Robotics 1.5. Ako vas zanima više o pojedinostima, preporučujemo posjet Developer blogu i službenim najavama Google DeepMind. Istraživanje i razvoj nastavljaju se uz podršku brojnih timova i industrijskih partnera kako bi se napredak pretvorio u praktične i sigurnosno odgovorne primjene u budućnosti.

Kako biste bolje razumjeli kontekst, evo dodatne podsjetničke slike: dva ključna modela rade zajedno kako bi omogućili robota da “premišlja prije djelovanja”, a pritom može preuzeti informacije s interneta ili drugih digitalnih alata, te da se u procesu prilagodi različitim robotima i okruženjima. Ovaj pristup donosi veću transparentnost donošenja odluka i šire mogućnosti za uporabu u složenim zadacima.

FAQ (Često postavljana pitanja)

1) Što je točno Gemini Robotics 1.5 i koje su njegove glavne komponente?

Gemini Robotics 1.5 je najnovija generacija AI modela namijenjenih robotici koja kombinira viziju, jezik i akciju. Sastoje se od dviju ključnih komponenti: Gemini Robotics-ER 1.5, koji je optimiziran za “embodirano” razmišljanje i planiranje unutar fizičkog okruženja, te Gemini Robotics 1.5, koji pretvara vizualne i lingvističke upute u konkretne akcije robota. Zajedno omogućuju robotički sustav koji može razmišljati, planirati, koristiti alate i izvoditi zadatke na visokoj razini složenosti.

2) Kako ER 1.5 i 1.5 model surađuju na izvršenju zadataka?

ER 1.5 ima ulogu višeg nivoa upravljanja i planiranja, dok 1.5 model preuzima taj plan i pretvara ga u nizu koraka koji robot može izvesti. ER 1.5 može koristiti alate poput pretraživanja, a 1.5 može dati točne, detaljne naredbe za pokrete i akcije. Zajedno omogućuju think-before-do pristup koji povećava točnost i efikasnost pri izvođenju složenih zadataka.

3) Koje su realne primjene Gemini Robotics 1.5 u svakodnevnom životu ili industriji?

U kućnom okruženju, roboti bi mogli sortirati odjeću, pospremiti prostor, ili pomoći u kuhinji. U industriji, mogu optimizirati rad u skladištima, surađivati s ljudima na montaži ili asistirati u sigurnosnim i logističkim zadacima. U obrazovanju i istraživanju mogu služiti kao praktični alati za demonstracije i eksperimentiranje s naprednom robotskom AI.

4) Kako sigurnost i etika igraju ulogu u razvoju Gemini Robotics 1.5?

Sigurnost i etika su ključni prioriteti. U sustave su uključeni mehanizmi za sigurnost prije akcije i usklađenost s Gemini Safety Policies. ASIMOV benchmark se nadograđuje kako bi se ocijenila semantička sigurnost i pravilno ponašanje robota u složenim scenarijima. Time se radi na smanjenju rizika i povećanju sigurnosti korisnika.

5) Gdje i kako se može pristupiti Gemini Robotics 1.5?

Trenutno je Gemini Robotics 1.5 dostupna odabranim partnerima putem Gemini API-ja unutar Google AI Studio. Programeri i organizacije mogu zatražiti pristup kao dio partnerskog programa, a dodatne informacije nalaze se na Developer blogu i službenim kanalima Google DeepMind.

6) Što predstavlja jasnoću “think before acting” i zašto je to značajno?

“Think before acting” znači da model može generirati internu analizu i logičke korake prije nego što preuzme operativnu akciju. To omogućuje robotu da provodi višekorake procjene, bolje razumije zadatke i lakše mijenja plan ako se uvjeti promijene. To povećava pouzdanost, fleksibilnost i sposobnost generalizacije na nove zadatke i okoline.

7) Kakav je dugoročni cilj ovog razvoja?