Sigurnosni propust kod Anthropicovog modela Mythos naglašava krhkost strategija zaštite umjetne inteligencije

Brzi razvoj umjetne inteligencije (AI) pomiče granice mogućega, ali istovremeno postavlja ključna pitanja o sigurnosti i kontroli. Tvrtka Anthropic, predvodnik u istraživanju i primjeni AI, nedavno se suočila sa značajnim izazovom kada je neovlaštena skupina uspjela pristupiti pretpreglednoj verziji njihovog dugo očekivanog modela za kibernetičku sigurnost, nazvanog Mythos. Ovaj incident, detaljno opisan u nedavnom izvješću, naglašava inherentne ranjivosti u postojećim strategijama zaštite AI i potencijalne rizike povezane s dijeljenjem moćnih modela, čak i s pouzdanim partnerima.

Događaj se zbio 22. travnja 2026., na dan kada je Mythos javno predstavljen, bacivši odmah sjenu na ambiciozni Anthropicov „Projekt Glasswing“. Cilj projekta bio je ograničiti pristup ovom naprednom alatu na odabranu skupinu suradnika s visokim stupnjem povjerenja. Međutim, proboj nije bio rezultat sofisticiranog napada sponzoriranog od strane države. Umjesto toga, potekao je od skupine entuzijasta koji su djelovali na privatnom Discord poslužitelju. Kombinacijom promišljenog nagađanja i tehničke analize uspjeli su locirati krajnju točku (endpoint) modela. Značajno je da je u potvrđivanju pristupa ključnu ulogu odigrao vanjski suradnik, što ukazuje na ljudski faktor kao potencijalnu slabu kariku u sigurnosnom lancu.

Prema vlastitim izjavama, motivacija skupine bila je isključivo znatiželja i želja za istraživanjem mogućnosti još neobjavljenog modela, bez ikakvih zlonamjernih namjera. Svoje otkriće potvrdili su novinarima koji se bave istraživačkim radom, priloživši snimke zaslona i demonstracije uživo, čime su pokazali koliko je lako bilo otkriti model. Ta lakoća otkrivanja upućuje na temeljni nedostatak u Anthropicovom pristupu: oslanjanje na nejasnoću kao primarni mehanizam obrane. Činjenica da je skupina identificirala krajnju točku na temelju poznatih konvencija imenovanja koje se koriste za druge Claude modele sugerira nedostatak robusnih, nasumičnih identifikatora za osjetljive pretpregledne verzije. Ovo je ključan propust u sustavu dizajniranom za sprječavanje neovlaštenog pristupa.

Ključni detalji sigurnosnog propusta

Neovlašteni pristup: Skupina programera uspjela je dobiti pristup modelu Mythos putem privatnog Discord poslužitelja, koristeći kombinaciju tehničkog znanja i analize.
Ljudski faktor: Vanjski suradnik uključen u projekt pružio je ključnu pomoć u potvrđivanju pristupa, naglašavajući ljudski element kao potencijalnu ranjivost u sigurnosnom sustavu.
Motivacija: Pristup modelu bio je vođen isključivo željom za istraživanjem mogućnosti novog modela, bez zlonamjernih pobuda.
Lakoća otkrivanja: Dokazi poput snimki zaslona i demonstracija uživo pokazali su novinarima koliko je lako bilo otkriti i pristupiti modelu.
Temeljna slabost pristupa: Lakoća otkrivanja ukazuje na oslanjanje na nejasnoću kao primarnu metodu zaštite, što se pokazalo nedovoljnim.

Implikacije za budućnost razvoja AI

Ovaj incident pokreće važna pitanja o budućnosti razvoja i sigurnosti umjetne inteligencije. Anthropicov pristup, koji se u velikoj mjeri oslanjao na skrivanje umjesto na snažne sigurnosne protokole, ukazuje na hitnu potrebu za razvojem i implementacijom čvršćih strategija zaštite. Uključivanje robustnih, nasumičnih identifikatora za osjetljive pretpregledne verzije moglo bi značajno otežati neovlašteni pristup i smanjiti rizik od potencijalnih zlouporaba.

Daljnja analiza ovog događaja trebala bi se usredotočiti na uspostavljanje boljih praksi u upravljanju pristupom i sigurnosnim provjerama, posebno kod dijeljenja naprednih AI modela. Tvrtke koje razvijaju ovakve tehnologije moraju pronaći ravnotežu između suradnje i zaštite kako bi osigurale da njihovi alati ne padnu u krive

Sigurnosni propust kod Anthropicovog modela Mythos naglašava krhkost strategija zaštite umjetne inteligencije

Ključni detalji sigurnosnog propusta

Implikacije za budućnost razvoja AI

Odgovori Otkaži odgovor