Veliki jezični modeli (LLM-ovi) poput GPT-4 sve su prisutniji u našim životima, od pomoći pri sastavljanju elektroničke pošte do podrške korisnicima. Kako njihova uloga raste, postavlja se ključno pitanje: odražava li njihovo ponašanje ljudske društvene norme i vrijednosti? Nedavno istraživanje znanstvenika iz Googlea, Amira Taubenfelda, Zorika Gekhmana i Liore Nezry, bavi se upravo ovim pitanjem, prilagođavajući klasične psihološke alate u sveobuhvatan test za umjetnu inteligenciju.
Preispitivanje testova osobnosti za strojeve
Ljudska osobnost tradicionalno se mjeri upitnicima samoprocjene. Sudionici odgovaraju na izjave poput „Brzo izražavam svoje mišljenje“ i ocjenjuju stupanj slaganja na skali. Tijekom desetljeća, istraživači su razvili brojne takve instrumente, svaki usmjeren na specifične osobine poput empatije, asertivnosti ili emocionalne regulacije. Tim je za svoje istraživanje odabrao tri najčešće korištena i znanstveno potvrđena alata:
- IRI (Indeks međuljudske reaktivnosti) – procjenjuje empatiju kroz četiri podrazine: preuzimanje tuđe perspektive, maštovitost, empatičku brigu i osobnu uznemirenost.
- ERQ (Upitnik za regulaciju emocija) – mjeri kako ljudi upravljaju svojim emocijama, s naglaskom na kognitivno preoblikovanje i potiskivanje izražavanja emocija.
- Dodatni instrumenti – uključujući Inventar „Velikih pet“ osobina ličnosti i Skalu socijalne orijentacije, kako bi se obuhvatile šire dimenzije osobnosti.
Prilagodba ovih upitnika za LLM-ove nije jednostavna. Za razliku od ljudi, odgovori umjetne inteligencije izrazito ovise o preciznom formuliranju upita i mogu se drastično promijeniti ako se promijeni ulazni podatak. Model bi se mogao „složiti“ s nekom tvrdnjom u kontroliranom okruženju, ali se drugačije ponašati u stvarnom razgovoru.
Sustavni okvir za procjenu
Kako bi premostili taj jaz, istraživači su razvili strukturirani okvir koji pretvara tradicionalne testove osobnosti u scenarije prosuđivanja situacija, prilagođene za LLM-ove. Proces se sastoji od tri ključna koraka:
- Oblikovanje upita (Prompt Engineering) – kreiranje upita koji zadržavaju izvorni smisao upitnika, ali potiču prirodno jezično generiranje odgovora.
- Situacijska procjena – model se stavlja u realistične razgovorne situacije kako bi se procijenilo kako reagira na različite društvene izazove.
- Analiza rezultata – uspoređivanje odgovora modela s ljudskim obrascima ponašanja i statističko mjerenje sličnosti.
Ovaj pristup omogućuje objektivno mjerenje
Budućnost procjene ponašanja AI
Ovaj novi okvir predstavlja značajan korak naprijed u razumijevanju kako se umjetna inteligencija, posebice veliki jezični modeli, odnosi prema složenim ljudskim društvenim obrascima. Omogućuje znanstvenicima da sustavno procjenjuju ne samo jezične sposobnosti modela, već i njihovu sposobnost oponašanja ljudskih društvenih tendencija, što je ključno za razvoj etičke i pouzdane umjetne inteligencije.
Često postavljana pitanja (FAQ)
Što su veliki jezični modeli (LLM)?
LLM-ovi su napredni računalni programi obučeni na ogromnim količinama tekstualnih podataka, sposobni razumjeti i generirati ljudski jezik za širok raspon zadataka.
Zašto je važno da AI oponaša ljudske društvene sklonosti?
Važno je jer AI sve više sudjeluje u interakcijama s ljudima. Razumijevanje i oponašanje društvenih normi pomaže u stvaranju pouzdanijih, etičnijih i korisnijih AI sustava.
Mogu li AI sustavi zaista „osjećati“ ili „razumjeti“ društvene situacije?
Ne, AI sustavi ne posjeduju svijest niti emocije. Oni oponašaju obrasce naučene iz podataka, ali ne do