Kolaborativni pristup generiranju slika

01.02.2026.

199

Guy Tennenholtz, Senior Research Scientist, i Craig Boutilier, Principal Scientist, Google ResearchUvodimo PASTA, agent za učvršćivanje učenja koji refinira izlaz iz teksta u sliku kroz više krugova interakcije s korisnikom, učeći njihove jedinstvene preferencije.

Guy Tennenholtz, Senior Research Scientist, i Craig Boutilier, Principal Scientist, Google Research

Uvodimo PASTA, agent za učvršćivanje učenja koji refinira izlaz iz teksta u sliku kroz više krugova interakcije s korisnikom, učeći njihove jedinstvene preferencije. Ovaj proces omogućuje nova tehnika simulacije korisnika. Brzi linkovi: Članak, Osnovni skup podataka ×

Imate savršenu sliku u umu. Unesete upit, kliknete na generiranje, a rezultat je blizu onoga što ste mislili, ali ne baš točno. Pokušavate refiniti upit, dodati više detalja, ali ne možete mostiti razliku između svoje ideje i konačne slike. Ovo je uobičajeno iskustvo. Dok su modeli tekst-u-sliku (T2I) izuzetno moćni, često ne uspiju uhvatiti nuancu i specifičnost jedinstvene kreativne namjere pojedinca samo s jednim upitom. A što ako bismo pretvorili generiranje slika u kolaborativni razgovor?

U ovom članku opisujemo naš istraživački rad “Preference Adaptive and Sequential Text-to-image Agent” (PASTA), agent za učvršćivanje učenja (RL) koji surađuje s korisnicima kako bi postupno refinirao rezultate T2I. Ovaj pristup uklanja potrebu korisnika da se oslanjaju na pokušaaj i pogrešku pri refininiranju upita kako bi dosegli željanu sliku. Kroz ljudske ocjene stvorili smo novi skup podataka sekvencijalnih preferencija, koji smo onda koristili za usporedbu PASTA s baznim modelom najnovijeg standarda. Rezultati su pokazali da je PASTA, treniran s našom mješavinom stvarnih i simuliranih podataka, konzistentno generirao slike koje su korisnici ocijenili kao više zadovoljavajuće. Također smo objavili naš osnovni skup podataka s kolekcijom od preko 7.000 interakcija ljudskih ocjenjivača s PASTA.

Kako radi PASTA

Za učinkovito treniranje AI agenta da se prilagodi individualnim preferencijama korisnika, potreban je veliki i raznovrstan skup podataka interakcija. Međutim, prikupljanje tih podataka od stvarnih korisnika je izazovno zbog nekoliko faktora, uključujući privatnost korisnika. Da bismo riješili ovaj problem, trenirali smo PASTA koristeći dvostupanjsku strategiju koja kombinira stvarne povratne informacije od ljudi s velikim skalnim simulacijom korisnika. Najprije smo prikupili visokokvalitetni osnovni skup podataka s preko 7.000 sekvencijalnih interakcija ocjenjivača. Ove interakcije uključivale su proširenja upita generirana od strane velikog multimodalnog modela Gemini Flash i odgovarajuće slike generirane od strane modela T2I Stable Diffusion XL (SDXL). Ovaj početni sjeme autentičnih podataka o preferencijama koristili smo za treniranje simulatora korisnika, dizajniranog da generira dodatne podatke koji repliciraju stvarne izborne i preferencije korisnika.

Središte metode

U srcu naše metode nalazi se model korisnika, koji se sastoji od dvije ključne komponente: 1) model korisnosti koji predviđa koliko će korisnik voljeti bilo koji skup slika, i 2) model izbora koji predviđa koji će skup slika korisnik odabrati kada mu se prikažu nekoliko skupova. Model korisnika konstruirali smo koristeći pretrenirane kodere CLIP-a i dodali smo korisničke specifične komponente. Model smo trenirali koristeći algoritam očekivanja-maximizacije koji nam omogućava istovremeno učiti specifičnosti korisničkih preferencija dok istovremeno otkrivamo latente “tipove korisnika”, to jest klastere korisnika s sličnim ukusima (npr. tendencije da preferiraju slike s životinjama, pejzažima ili apstraktnom umjetnošću).

Trenirani simulatori korisnika mogu dati povratne informacije i izraziti preferencije na generiranim slikama, te napraviti izborne od skupova predloženih slika. Time omogućavamo generiranje preko 30.000 simuliranih interakcijskih trajektorija.

Naš pristup čini više od toga što samo stvara više podataka; daje nam kontrolirano okruženje u kojem možemo istražiti ogromnu razinu ponašanja korisnika kako bismo trenirali agenta PASTA da učinkovito surađuje s korisnicima.

Simulator korisnika uči prepoznati različite tipove korisnika iz podataka o preferencijama. Svaki red prikazuje najbolje ocijenjene slike za iznenadni profil korisnika, otkrivajući jasne preferencije za kategorije poput “Životinja” ili “Hrana”. S ovom robustnom, podacima potpomognutom osnovom, agent PASTA treniran je da učinkovito surađuje s proizvoljnim korisnicima kako bi generirao slike koje odgovaraju njihovim preferencijama.

Agent sam po sebi je model učvršćivanja učenja na vrijednostima koji uči odabrati najbolji “slate” proširenja upita (tj. elaboracije trenutnog upita koje se koriste za generiranje sljedećih slika) koje treba prikazati korisniku na svakom koraku. Njegov cilj je maksimalizirati kumulativnu zadovoljstvo korisnika tijekom cijele interakcije. Kada je PASTA treniran i implementiran, korisnik pokreće interakciju s početnim upitom. PASTA najprije koristi generator kandidata (veliki multimodalni model) da stvori raznovrsan skup potencijalnih proširenja upita. Zatim selektor kandidata (naš trenirani RL agent) odabire optimalni set od četiri takve proširenja, koja se koriste za generiranje odgovarajućih slika za prikaz korisniku. Korisnik odabire sliku koja je najbliža njegovom vizualnom dojmu, što pruža povratnu informaciju koja vodi PASTA na sljedeći set prijedloga. Ova kolaborativna razmjena doprinosi tome da model uči korisnikove preferencije na f

Zaključak

PASTA predstavlja revolucionarni korak u generiranju slika, omogućavajući korisnicima da učestvuju u procesu kreiranja slika na način koji je do sada bio nemoguć. Naš pristup ne samo da poboljšava kvalitetu generiranih slika, već i stvara novu vrstu interakcije između korisnika i AI sistema. Budućnost generiranja slika izgleda izuzetno obetavajuće, a PASTA je samo prvi korak u ovom putu.

Česta pitanja

1. Kako se PASTA razlikuje od drugih modela tekst-u-sliku?

PASTA se razlikuje od drugih modela tekst-u-sliku po tome što je dizajniran da surađuje s korisnicima kroz više krugova interakcija, učeći njihove jedinstvene preferencije. To mu omogućava da generira slike koje su mnogo bliže korisnikovim vizualnim dojmovima.

2. Koliko je PASTA treniran?

PASTA je treniran na skupu podataka koji sadrži preko 7.000 sekvencijalnih interakcija ocjenjivača, te dodatnih 30.000 simuliranih interakcija generiranih od strane našeg simulatora korisnika.

3. Može li PASTA generirati slike za koje ne postoji tekstualni opis?

Dok je PASTA izuzetno dobar u generiranju slika na temelju tekstualnih upita, njegova sposobnost generiranja slika za koje ne postoji tekstualni opis je ograničena. To je područje koje se još uvijek istražuje u svijetu umjetne inteligencije.

4. Je li PASTA dostupan za javnu upotrebu?

Trenutno, PASTA nije dostupan za javnu upotrebu. Naš tim na Google Researchu aktivno istražuje mogućnosti implementacije i širenja ovog tehnološkog dostignuća.

5. Kako se PASTA može primijeniti u svakodnevnom životu?

PASTA ima mnoge potencijalne primjene u svakodnevnom životu, uključujući dizajniranje grafičkih korisničkih interfejsa, kreiranje vizualnih sadržaja za marketing i oglašavanje, te pomoć u kreiranju umjetničkih djela.