Procurio izvorni kod Anthropicovog modela Claude: Što to znači za sigurnost i razvoj umjetne inteligencije?

U neočekivanom obratu događaja, izvorni kod vodećeg jezičnog modela tvrtke Anthropic, poznatog kao Claude, nenamjerno je procurio putem datoteke source-map koja se nalazila na javnom npm registru tvrtke. Ovaj incident, prvi put primijećen na subreddit grupi r/AINewsMinute, izazvao je burnu raspravu među istraživačima umjetne inteligencije, stručnjacima za sigurnost i programerima koji se oslanjaju na Anthropicove alate. Iako curenje podataka nije utjecalo na same parametre modela (weights), izlaganje internih detalja implementacije može imati dalekosežne posljedice kako za razvoj vlasničkih AI sustava, tako i za prakse sigurnosti otvorenog koda.

Što curenje otkriva o Claudeovoj arhitekturi?

Claude je Anthropicov odgovor na velike jezične modele poput GPT‑4 tvrtke OpenAI. Izgrađen je na arhitekturi utemeljenoj na transformatorima, s posebnim naglaskom na sigurnost i interpretativnost. Procurjena datoteka source-map, koja se obično koristi za povezivanje minificiranog JavaSkripta s njegovim izvornim oblikom radi lakšeg otklanjanja pogrešaka, sadržavala je reference na nazive internih modula, potpise funkcija, pa čak i komentare koji su upućivali na strategije modela za generiranje odgovora (prompting) i integraciju sigurnosnih slojeva.

Iako datoteka source-map ne uključuje obučene parametre modela, ona pruža svojevrsni „putokaz“ kako okolni JavaSkript može rekonstruirati logiku i raspored podataka unutar modela. To otkriva detalje o načinu na koji se podaci filtriraju, kako se primjenjuju sigurnosni filteri i kako se model trenira na specifičnim skupovima podataka.

Posljedice za sigurnost i razvoj AI

Prvo, otkrivanje internih struktura otvara mogućnost za napredne analize koje bi mogle identificirati ranjivosti u samoj arhitekturi. Drugo, programeri koji koriste Anthropicove alate mogu sada bolje razumjeti kako prilagoditi svoje modele, ali i kako izbjegavati potencijalne propuste. Treće, otvaranje koda može potaknuti zajednicu na brži razvoj alternativnih, sigurnijih rješenja, ali i omogućiti zlonamjernicima da isprobaju napade prilagođene upravo Claudeovim slabostima.

Anthropic je već potvrdio da istražuje slučaj, uklonio je spornu datoteku i najavio reviziju internih procedura objavljivanja. No, ovaj događaj postaje upozorenje cijeloj industriji: čak i najbolje osigurani sustavi mogu propustiti temeljne korake sigurnosti. Istovremeno, rasprava se ponovno otvara o tome koliko zapravo trebamo vjerovati vlasničkim modelima čiji kod ne možemo pregledati.

Procurio izvorni kod Anthropicovog modela Claude: Što to znači za sigurnost i razvoj umjetne inteligencije?

Što curenje otkriva o Claudeovoj arhitekturi?

Posljedice za sigurnost i razvoj AI

Odgovori Otkaži odgovor