Jon E. Froehlich, Visiting Faculty Researcher, i Shaun Kane, Research Scientist, Google Research
Uvodimo StreetReaderAI, novi prototip pristupačnog street viewa koji koristi kontekstno svjesnu, real-time AI i pristupačne navigacijske kontrole. Brzi linkovi za čitanje
Članak × Interaktivni alati za streetscape dostupni su danas u svim glavnim uslugama kartiranja i revolucionirali su način na koji ljudi virtualno navigiraju i istražuju svijet – od pregledavanja ruta i inspekcije odredišta do udaljenog posjećivanja svjetskih turističkih atrakcija. Međutim, do sada, čitači ekrana nisu mogli interpretirati street view slike, a alt tekst nije bio dostupan. Sada imamo priliku redefinirati ovo imersivno streetscape iskustvo da bude inkluzivno za sve putem multimodalne AI i razumijevanja slika. To bi moglo omogućiti usluzi poput Google Street View, koja ima preko 220 milijardi slika koje pokrivaju više od 110 zemalja i teritorija, da bude pristupačnija ljudima s oštećenim vidom i slabim vidom, nudeći imersivno vizualno iskustvo i otvarajući nove mogućnosti za istraživanje.
U članku “StreetReaderAI: Kako činiti Google Street View dostupnim putem kontekstno svjesne multimodalne AI”, predstavljenom na UIST’25, predstavljamo StreetReaderAI, prototip dostupnog street viewa koji koristi kontekstno svjesnu, real-time AI i pristupačne navigacijske kontrole. StreetReaderAI je iterativno dizajnirao tim istraživača pristupačnosti s oštećenim i neoštećenim vidom, temeljen na prethodnim radovima na pristupačnim prvim licima igranja i navigacijskim alatima, kao što su Shades of Doom, BlindSquare i SoundScape. Ključne mogućnosti uključuju:
– Real-time AI-generirane opise bliskih ulica, križanja i mjesta.
– Dinamični razgovor s multimodalnim AI agentom o scenama i lokalnoj geografiji.
– Pristupačno pomicanje i kretanje između panoramskih slika putem glasovnih naredbi ili prečaca tipkovnice.
StreetReaderAI pruža kontekstno svjesnu opis scene street viewa unosom izvora geografskih informacija i trenutnog polja vida korisnika u Gemini. Za puno audio-video iskustvo, uključujući zvuk, pogledajte ovaj YouTube video.
StreetReaderAI koristi Gemini Live za pružanje real-time, interaktivnog razgovora o sceni i lokalnim geografskim značajkama. Za puno audio-video iskustvo, uključujući zvuk, pogledajte ovaj YouTube video.
Kako se kretati u StreetReaderAI
StreetReaderAI nudi imersivno iskustvo prvog lica istraživanja, slično video-igri gdje je audio primarni sučelje. StreetReaderAI pruža glatku navigaciju putem tipkovnice i glasovne interakcije. Korisnici mogu istraživati svoje okoline koristeći lijevu i desnu strelicu za pomicanje pogleda. Kada korisnik pomiče pogled, StreetReaderAI dijeli audio povratnu informaciju, glasno izražavajući trenutni smjer kao kardinalni ili interkardinalni smjer (npr. “Sada se okrenuo: Sjever” ili “Sjeveroistok”). Također izražava može li se korisnik kretati naprijed i ako je trenutno okrenut bliskom znamenitosti ili mjestu. Za kretanje, korisnik može napraviti “virtualne korake” koristeći strelicu gore ili se vratiti nazad koristeći strelicu dolje. Kada korisnik prolazi kroz virtualni streetscape, StreetReaderAI opisuje koliko je korisnik putovao i ključne geografske informacije, kao što su bliska mjesta. Korisnici također mogu koristiti funkcije “skok” ili “teleport” za brzo pomicanje na nova mjesta.
Kako StreetReaderAI služi kao virtualni vodič
Jezgra StreetReaderAI-a su dvije podložne AI podsustave podržane Geminom: AI Describer i AI Chat. Oba sustava primaju statični prompt i opcionalni korisnički profil, kao i dinamične informacije o trenutnoj lokaciji korisnika, kao što su bliska mjesta, informacije o ulicama i trenutna Street View slika (tj. što se prikazuje u Street Viewu). AI Describer AI Describer funkcionira kao alat za opis scene koji je svjestan konteksta koji kombinira dinamične geografske informacije o virtualnoj lokaciji korisnika s analizom trenutne Street View slike za generiranje real-time audio opisa. Ima dva načina rada: “zadani” prompt koji ističe navigaciju i sigurnost za pješake s oštećenim vidom, i “vodič” prompt koji pruža dodatne turističke informacije (npr. povijesni i arhitektonski kontekst). Također koristimo Gemini za predviđanje vjerojatnih slijedećih pitanja specifičnih za trenutnu scenu i lokalnu geografiju koja bi mogla biti zanimljiva za putnike s oštećenim ili slabim vidom. Dijagram kako AI Describer kombinira multimodalne podatke za podršku kontekstno svjesnim opisima scena. AI Chat AI Chat gradi na AI Describeru, ali omogućava korisnicima da postavljaju pitanja o trenutnom pogledu, prošlim pogledima i bliskoj geografiji. Chat agent koristi Googleov Multimodal Live API, koji podržava real-time interakciju, pozivanje funkcija i privremeno zadržavanje
Prednosti i nedostaci StreetReaderAI
Prednosti
– Pristupačnost: StreetReaderAI omogućuje ljudima s oštećenim vidom da istražuju svijet putem audio opisa i glasovnih naredbi.
– Real-time interakcija: Korisnici mogu interagirati s okolinom u real-time, dobivajući trenutne informacije o okolini.
– Multimodalni pristup: Korisnici mogu koristiti i tipkovnicu i glas za navigaciju, što povećava fleksibilnost.
– Kontekstno svjesna AI: AI generira opise koji su specifični za trenutnu scenu i lokalnu geografiju, pružajući korisnicima relevantne informacije.
Nedostaci
– Ovisnost o Internetu: StreetReaderAI zahtijeva stalnu internetsku vezu za funkcioniranje, što može biti problem u područjima s lošom internetskom pokrivenošću.
– Ograničena preciznost: AI još uvijek može napraviti greške u opisivanju scena, što može biti frustrirajuće za korisnike.
– Vremensko ograničenje: Korisnici moraju provesti vrijeme za učenje i prilagođavanje se alatu, što može biti prepreka za one koji su manje skloni tehnologiji.
– Ograničena dostupnost: StreetReaderAI još nije dostupan u svim zemljama, što ograničava njegovu dostupnost za korisnike iz različitih regija.
Zaključak
StreetReaderAI predstavlja revolucionaran korak u činitelju Google Street View pristupačnijim ljudima s oštećenim vidom. Putem kontekstno svjesne multimodalne AI, StreetReaderAI pruža real-time audio opise i interaktivnu navigaciju, omogućavajući korisnicima da istražuju svijet na novi način. Dok još ima prostora za poboljšanje, StreetReaderAI predstavlja važan korak prema inkluzivnijem digitalnom svijetu.
Česta pitanja
Je li StreetReaderAI dostupan za sve korisnike?
Trenutno, StreetReaderAI je dostupan samo za korisnike Google Street Viewa. Međutim, tim se nastavlja raditi na proširenju dostupnosti za korisnike drugih usluga kartiranja.
Može li StreetReaderAI funkcionirati bez interneta?
Ne, StreetReaderAI zahtijeva stalnu internetsku vezu za funkcioniranje. Bez interneta, korisnici neće moći koristiti AI generirane opise i interaktivnu navigaciju.
Koliko je točno StreetReaderAI?
StreetReaderAI je vrlo točan, ali još uvijek može napraviti greške u opisivanju scena. Tim se nastavlja raditi na poboljšanju preciznosti AI-a.
Može li StreetReaderAI pomoći ljudima s oštećenim vidom u svakodnevnim situacijama?
StreetReaderAI je prvenstveno dizajniran za virtualno istraživanje svijeta putem Google Street Viewa. Međutim, tim se nastavlja raditi na proširenju funkcionalnosti za svakodnevne situacije.
Je li StreetReaderAI besplatan?
StreetReaderAI je trenutno besplatan za korisnike Google Street Viewa. Međutim, tim se nastavlja raditi na modelima plaćanja za korisnike drugih usluga kartiranja.



![Novi hibridni platforma za kvantnu simulaciju magnetizma 4 ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno]](https://umjetnai.com/wp-content/uploads/2025/08/526750221_1101661142120887_3623883531199391571_n-1-350x250.jpg)

![ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno] 6 chatgpt5](https://umjetnai.com/wp-content/uploads/2025/08/chatgpt5-360x180.webp)



![Novi hibridni platforma za kvantnu simulaciju magnetizma 10 ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno]](https://umjetnai.com/wp-content/uploads/2025/08/526750221_1101661142120887_3623883531199391571_n-1-360x180.jpg)




