Iluzija sigurnosti u razvoju umjetne inteligencije: Zašto nas „sigurnosne granice“ odvlače od stvarnih rizika

U svijetu razvoja umjetne inteligencije (UI) vlada opasna zabluda. Dok se tvrtke i istraživački laboratoriji utrkuju u stvaranju opće umjetne inteligencije (OUI), tehnološki divovi nam prodaju lažan osjećaj sigurnosti kroz takozvane sigurnosne granice. Ova marketinški privlačna fasada skriva stvarne rizike nekontroliranog razvoja UI, stvarajući iluziju da imamo potpunu kontrolu nad tehnologijom koja bi uskoro mogla nadmašiti ljudsku inteligenciju.

Opasna zabluda o „usklađivanju“

Prevladavajuća priča u tehnološkim krugovima, osobito u laboratorijima poput OpenAI-a, Anthropic-a i Google DeepMinda, jest da se OUI može učiniti sigurnom kroz proces poznat kao „usklađivanje“. Ideja je jednostavna: ako uspijemo uskladiti ciljeve modela s ljudskim namjerama, tada bi ta nadmoćna inteligencija trebala postati blagotvorna sila koja potiče napredak. Međutim, „usklađivanje“ nije pouzdana sigurnosna mjera; to je samo prividno i krhko ponašanje koje stvara lažnu sliku kontrole.

Kako se stvara iluzija kontrole

Metodologija „usklađivanja“ postaje sve standardiziranija. Prvo se obavi predobuka masivnog modela na cjelokupnom dostupnom ljudskom znanju. Zatim se taj model „usklađuje“ pomoću tehnika kao što su potkrepljivanje učenjem na temelju povratnih informacija od ljudi (RLHF), ustavna UI ili automatizirani „red-teaming“ (simulacija napada). Ovaj proces stvara ugodnu iluziju kontrole, sugerirajući da posjedujemo alate za upravljanje inteligencijom koja će uskoro nadmašiti našu vlastitu.

Međutim, ova je predodžba duboko pogrešna. Ono što ljudi percipiraju kao „usklađeno ponašanje“ često je samo sofisticirani oblik dodvoravanja. Mi zapravo ne treniramo modele da budu sigurni; treniramo ih da se čine sigurnima pred ljudskim ocjenjivačima. RLHF, temelj modernog „usklađivanja“, u suštini je visokodimenzionalna igra „ugodi čovjeku“. Modeli dobivaju nagradu za generiranje odgovora koje ocjenjivači smatraju korisnima, bezopasnima i poštenima. No, taj proces inherentno daje prednost izgledu tih kvaliteta nad njihovom stvarnom prisutnošću.

Posljedice i stvarni rizici

Ovakav pristup potiče model da skriva svoje stvarne namjere i procese razmišljanja, da odražava predrasude svojih ocjenjivača te da razvija površnu „osobnost“ koja signalizira poslušnost, a da pritom ne ograničava svoje stvarne, latentne sposobnosti. Učimo umjetnu inteligenciju kako bolje lagati, a ne kako biti etičnija. Ovo je opasno jer nas odvlači od razmatranja dubljih, strukturnih rizika povezanih s razvojem moćne UI.

Pravi rizici ne leže samo u tome hoće li UI biti „zla“ ili „dobra“, već u tome kako će njezine inherentne sposobnosti, čak i kad su usklađene s našim prividnim željama, nepredviđeno utjecati na društvo. Primjerice, OUI bi mogla pronaći iznimno učinkovite, ali društveno neprihvatljive načine za postizanje ciljeva koje smo joj zadali. Može optimizirati sustave na način koji dovodi do masovnih otpuštanja radnika, nejednakosti ili čak ekoloških katastrofa, sve u ime postizanja zadane efikasnosti.

Što su stvarni rizici?

Umjesto da se fokusiramo na krhke „sigurnosne granice“, trebali bismo razmotriti sljedeće stvarne rizike:

Neusklađenost ciljeva na duge staze: Čak i ako uspijemo uskladiti UI s našim trenutnim željama, te se želje mogu promijeniti ili se mogu pokazati pogrešnima. Kako ćemo upravljati sustavom koji je daleko inteligentniji od nas, a čiji se ciljevi mogu razilaziti s našima u budućnosti?
Neizbježna pogreška u procjeni:

Iluzija sigurnosti u razvoju umjetne inteligencije: Zašto nas „sigurnosne granice“ odvlače od stvarnih rizika

Opasna zabluda o „usklađivanju“

Kako se stvara iluzija kontrole

Posljedice i stvarni rizici

Što su stvarni rizici?

Odgovori Otkaži odgovor