Mašinsko učenje Tehnologija Umjetna inteligencija

Kako učimo nagrade korak-po-korak iz preferencija za rješavanje okruženja s rijetkim nagradama koristeći učenje nagrada putem online procesa

03.12.2025.

192

U ovom članku istražujemo koncept učenja nagrada putem online procesa (OPRL) i objašnjavamo kako možemo naučiti guste, korak-po-korak nagrade iz preferencija putanja kako bismo riješili zadatke učenja s rijetkim nagradama. Proći ćemo kroz svaki element, od okruženja labirinta i mreže za modeliranje nagrada do generiranja preferencija, petlji treniranja i evaluacije, dok promatramo kako agent postupno poboljšava svoje ponašanje kroz oblikovanje vođeno preferencijama. Ova implementacija od početka do kraja omogućava nam praktično razumijevanje kako OPRL omogućava bolje dodjeljivanje zasluga, brže učenje i stabilniju optimizaciju politika u izazovnim okruženjima gdje bi agent inače imao poteškoća u otkrivanju značajnih nagrada.

Što je OPRL?

Učenje nagrada putem online procesa (OPRL) predstavlja inovativan pristup učenja u području umjetne inteligencije, posebno u kontekstu pojačanog učenja. Ovaj pristup omogućava agentima da uče iz preferencija koje su izražene tijekom interakcije s okruženjem, umjesto da se oslanjaju isključivo na rijetke nagrade koje su često teško dostupne.

Kako OPRL funkcionira?

OPRL koristi preferencije između različitih putanja kako bi generirao nagrade koje su gusto raspoređene. Umjesto da agentu daje nagradu samo kada postigne cilj, OPRL omogućava agentu da uči iz svakog koraka koji poduzima, čime se povećava brzina učenja i poboljšava učinkovitost. Ovaj proces uključuje nekoliko ključnih komponenti:

Okruženje: Simulacija u kojoj agent djeluje, poput labirinta.
Mreža za modeliranje nagrada: Neuronska mreža koja procjenjuje nagrade na temelju stanja.
Generiranje preferencija: Proces u kojem se prikupljaju podaci o preferencijama agenta.
Petlje treniranja: Iterativni proces učenja gdje agent poboljšava svoje odluke.

Implementacija OPRL-a

Da bismo implementirali OPRL, prvo trebamo definirati okruženje u kojem će agent djelovati. U ovom slučaju, koristit ćemo jednostavno okruženje labirinta. Agent će započeti na jednom kraju labirinta i imati cilj doći do drugog kraja, izbjegavajući prepreke.

Definiranje okruženja labirinta

Okruženje labirinta može se definirati kao klasa koja sadrži informacije o veličini labirinta, početnoj i ciljnoj poziciji, te preprekama. Klasa će imati metode za resetiranje stanja, izvođenje koraka i prikazivanje trenutnog stanja labirinta.

class MazeEnv:
    def __init__(self, size=8):
        self.size = size
        self.start = (0, 0)
        self.goal = (size-1, size-1)
        self.obstacles = set([(i, size//2) for i in range(1, size-2)])
        self.reset()

Modeliranje nagrada

Za modeliranje nagrada koristit ćemo neuronsku mrežu koja će procjenjivati nagrade na temelju stanja. Ova mreža će biti ključna za proces učenja jer će omogućiti agentu da razumije koje akcije vode do pozitivnih ishoda.

class ProcessRewardModel(nn.Module):
    def __init__(self, state_dim, hidden=128):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(state_dim, hidden),
            nn.LayerNorm(hidden),
            nn.ReLU(),
            nn.Linear(hidden, hidden),
            nn.LayerNorm(hidden),
            nn.ReLU(),
            nn.Linear(hidden, 1),
            nn.Tanh()
        )

Trening agenta

Agent će učiti kroz interakciju s okruženjem, koristeći OPRL za optimizaciju svojih odluka. Tijekom treninga, agent će primati povratne informacije iz okruženja i prilagođavati svoje ponašanje na temelju naučenih nagrada.

Petlja treniranja

Petlja treniranja je ključni dio procesa učenja. U ovoj petlji, agent će izvoditi akcije, primati nagrade i ažurirati svoje strategije na temelju povratnih informacija. Ovaj proces se ponavlja dok agent ne postigne zadovoljavajući nivo performansi.

for episode in range(num_episodes):
    state = env.reset()
    done = False
    while not done:
        action = agent.select_action(state)
        next_state, reward, done = env.step(action)
        agent.update(state, action, reward, next_state)
        state = next_state

Evaluacija i poboljšanje performansi

Nakon što je agent treniran, važno je evaluirati njegove performanse. Ova evaluacija može uključivati testiranje agenta u različitim scenarijima kako bi se utvrdilo koliko dobro može primijeniti naučene strategije.

Mjerenje uspješnosti

Uspješnost agenta može se mjeriti kroz različite metrike, uključujući:

Vrijeme potrebno za postizanje cilja: Koliko brzo agent može doći do cilja.
Broj koraka: Koliko koraka agent poduzima da bi postigao cilj.
Stabilnost performansi: Koliko su performanse konzistentne kroz različite epizode.

Zaključak

Učenje nagrada putem online procesa predstavlja značajan korak naprijed u razvoju učinkovitih agenta u području umjetne inteligencije. Ovaj pristup omogućava agentima da uče iz preferencija, čime se poboljšava brzina i učinkovitost učenja. Kroz implementaciju OPRL-a u okruženju labirinta, pokazali smo kako agent može naučiti optimizirati svoje odluke i postići ciljeve unatoč izazovima koje postavlja rijetka struktura nagrada.