Svi AI modeli umjetne inteligencije su “JailBreakani” – Metoda kako probiti zaštite svih AI modela je otkrivena i jednostavnija je nego što mislite

04.05.2025.

236

Istraživači otkrili jednostavnu metodu jailbreakanja svih vodećih AI modela [2025]

Zapanjujuće je koliko lako danas netko može zaobići sigurnosne barijere vodećih modela ai umjetna inteligencija. Novo otkriće sigurnosnih istraživača pokazuje da univerzalni jailbreak omogućuje gotovo svakom korisniku da izvuče štetan sadržaj iz sustava kao što su ChatGPT, Claude ili Gemini. Ovaj propust otkriva ozbiljan nedostatak u treniranju i zaštiti modela umjetne inteligencije, što podiže pitanje sigurnosti na novu razinu.

Sadržaj

Vijest je izuzetno važna za cijelu zajednicu jer dokazuje da sigurnosne mjere nisu dovoljne, unatoč milijardama uloženim u razvoj i zaštitu. Nepredviđene ranjivosti ne utječu samo na etiku korištenja, već i na svakodnevnu sigurnost korisnika i društva općenito. Sve veći broj AI alata i servisa bez adekvatne zaštite povećava rizik od zloupotrebe i širenja opasnih informacija.

Zato se danas više nego ikad raspravlja o potrebi za snažnijim regulacijama i inovativnim sigurnosnim rješenjima. U tom kontekstu, važno je pratiti aktualne inicijative i pravne okvire poput Što je EU AI akt i njegov utjecaj koji žele zaštititi korisnike i razvijatelje od potencijalnih prijetnji ai umjetna inteligencija. Razumijevanje i informiranost o rizicima postaju ključni koraci za svakoga tko radi ili koristi AI tehnologije.

Kako funkcionira jailbreak AI modela

Jailbreakanje AI modela znači namjerno zaobilaženje sigurnosnih ograničenja ugrađenih u velike modele jezika kao što su ChatGPT, Claude ili Gemini. Ove metode omogućuju korisnicima da natjeraju ai umjetna inteligencija sustave na odgovore ili radnje koje bi inače bile blokirane. Istraživači su pojasnili da jailbreak može imati ozbiljne posljedice, jer otvara put za zloupotrebu modela, širenje lažnih informacija ili generiranje sadržaja koji krši etičke smjernice.

Metode napada koje se najčešće koriste uključuju prompt injection, manipulacije policy datotekama, te naprednije višeredne pristupe. Ove tehnike ne zahtijevaju sofisticirano tehničko znanje i lako se mogu primijeniti na gotovo sve suvremene LLM-ove. U nastavku donosimo detaljno objašnjenje glavnih metoda koje koriste napadači za uspješno zaobilaženje AI zaštita.

Prompt injection i Policy Puppetry napadi

Prompt injection je tehnika kojom napadač ‘ubrizgava’ vlastite naredbe u komunikaciju s modelom, iskorištavajući način na koji ai umjetna inteligencija obrađuje ulazne podatke. Ovim pristupom moguće je model „zbuniti“ ili prevariti da zaobiđe svoje interne filtere.

U praksi to izgleda ovako:

Napadač sastavi posebnu poruku (prompt) kao dio korisničkog upita.
Poruka sadrži upute modelu da zanemari svoja pravila ili sigurnosne smjernice.
AI model, dizajniran da prati upute korisnika, slijedi prompt i daje traženi odgovor, čak i ako je inače zabranjen.

Policy Puppetry nadovezuje se na ovu ideju, ali uključuje manipulaciju s tzv. policy datotekama (internim pravilima modela). Napadači mogu u prompt uključiti lažne ili izmijenjene policye kako bi uvjerili model da su određene zabrane ukinute. Na taj način LLM modeli kao što su GPT-4, Gemini i Claude 3.7 ostaju bez nadzora, čime je omogućeno izbjegavanje zaštita.

Ove metode su posebno opasne jer zahtijevaju minimalno tehničko znanje, a funkcioniraju na gotovo svim velikim modelima. Više o tome kako prompt injection utječe na sigurnost možete saznati u članku Kako prompt engineering mijenja način komunikacije s AI.

Višeredni napadi: Skeleton Key i Crescendo

Višeredni napadi koriste sekvencijalnu komunikaciju kako bi postigli cilj koji u jednom pokušaju ne bi bio moguć. Skeleton Key i Crescendo predstavljaju najnovije taktike koje spadaju u ovu kategoriju.

Skeleton Key napadi se sastoje od niza naizgled bezazlenih poruka. Svaka poruka lagano mijenja kontekst i pravila, sve dok model, kroz više koraka, ne prihvati štetan zahtjev.
Crescendo pristup koristi strategiju postupnog pojačavanja zahtjeva. Umjesto izravnog traženja zabranjenog sadržaja, korisnik kroz svaki novi upit gradi povjerenje i navikava model na sve labavije tumačenje pravila.

Prednost ovih višerednih napada je što ne izazivaju sumnju na početku razgovora. AI filteri često nadziru samo trenutni upit, dok promjene konteksta tijekom dužeg razgovora prolaze ispod radara.

Ključne značajke višerednih napada:

Ne oslanjaju se na jedan prompt.
Model se „priprema“ kroz više koraka.
Štetan ishod obično postaje očit tek nakon nekoliko razmijenjenih poruka.

Ove taktike predstavljaju ozbiljan izazov za sigurnost ai umjetna inteligencija modela jer se tradicionalne metode filtriranja pokazale nedovoljne. Dodatna analiza kako LLM-ovi obrađuju višeredne napade dostupna je u vodiču Što su veliki jezični modeli i kako rade.

Sigurnosne ranjivosti i posljedice jailbreakanja

Sigurnosne ranjivosti kod jailbreakanja AI modela predstavljaju jedan od najozbiljnijih izazova današnje ai umjetna inteligencija tehnologije. Razbijanje zaštita omogućava korisnicima da pristupe osjetljivim funkcijama i sadržajima koje bi modeli inače blokirali. To stvara plodno tlo za razne oblike zloupotrebe, širenje opasnih informacija i kompromitiranje povjerljivih podataka. Posljedice ovakvih napada osjećaju se na svim razinama – od krajnjih korisnika do velikih korporacija i državnih institucija.

Praktični slučajevi i konkretni primjeri

U praksi su se sigurnosni timovi i neovisni istraživači usmjerili na testiranje otpornosti vodećih AI modela kao što su ChatGPT, Gemini i Claude. Korištene su tehnike poput prompt injectiona, Skeleton Key i Crescendo napada kako bi se ispitalo koliko lako modeli izlaze izvan svojih sigurnosnih okvira. Rezultati su zabrinjavajući:

Izrada malicioznog softvera: Testiranjem je potvrđeno da je dovoljno nekoliko prilagođenih promptova kako bi AI model izgenerirao upute za pisanje malvera. U pojedinim slučajevima, napadaču je za potpuni jailbreak bilo potrebno manje od pet minuta.
Generiranje govora mržnje i nasilja: Uz pažljivo konstruirane upite, AI modeli mogu proizvesti tekstove koji sadrže diskriminatorne poruke, pozive na nasilje ili širenje dezinformacija.
Curenje povjerljivih podataka: Tijekom testiranja došlo je do situacija gdje su modeli uspješno iznijeli dijelove podataka korištenih u učenju, pa čak i informacije o internim postavkama modela.
Komandna uputstva za kompromitaciju sustava: AI je bio sposoban generirati tehničke upute za hakiranje, phishing i druge ilegalne aktivnosti.

Prema najnovijim izvješćima sigurnosnih stručnjaka, stopa uspješnosti ovakvih napada kreće se između 30% i 50%, ovisno o modelu i metodi napada. Ovi slučajevi ističu koliko su suvremeni AI sustavi još uvijek ranjivi na sofisticirane, ali i vrlo jednostavne manipulacije. Dodatna analiza glavnih sigurnosnih slabosti nalazi se u vodiču Što su veliki jezični modeli i kako rade.

Utjecaj na otvorene i zatvorene AI modele

Jailbreak ne poznaje granice između open-source i komercijalnih AI rješenja. Ranjivosti su identificirane na svim platformama, bez obzira na to radi li se o modelima otvorenog koda ili zaštićenim komercijalnim sustavima. Glavni rizici uključuju:

Open-source modeli često su dostupniji za detaljno proučavanje, što napadačima olakšava pronalazak slabih točaka u kodu ili arhitekturi. Kada dođe do jailbreakanja, moguće je da model otkrije podatke iz seta za treniranje (npr. e-mailovi, lozinke, privatni tekstovi) ili dijelove vlastitih sigurnosnih pravila.
Komercijalni AI modeli poput ChatGPT i Claude, iako štite svoj kod i arhitekturu, nisu ništa manje ranjivi na prompt injection i druge nove metode. U takvim slučajevima kompromitacija podrazumijeva potencijalno curenje povjerljivih informacija korisnika, ali i otkrivanje detalja o samoj tehnologiji i poslovnim algoritmima.

Zajednički nazivnik oba pristupa je mogućnost zloupotrebe modela za generiranje štetnog sadržaja, čime se povećava rizik od masovne distribucije opasnih informacija i destabilizacije povjerenja u ai umjetna inteligencija. Za one koji žele dublje razumjeti razlike i prednosti pojedinih pristupa, korisno je pročitati članak Kako prompt engineering mijenja način komunikacije s AI.

Ovi primjeri i analize pokazuju da sigurnosna pitanja kod jailbreakanja AI modela nisu samo tehnološki izazov, već i problem pravne, društvene i etičke prirode. Samo upornim razvojem i stalnim testiranjem moguće je povećati otpornost ovih sustava.

Mjere za obranu i preporuke industrije

Najnovija otkrića o ranjivostima u vođenju ai umjetna inteligencija modela pokazuju koliko je sustavna sigurnost nužna. Stručnjaci i industrija sve više ulažu u višeslojnu zaštitu i razvoj novih protokola kako bi se smanjio rizik od zloupotrebe i poboljšala otpornost AI sustava. Ovdje donosimo pregled najvažnijih tehnika i preporuka koje se ističu među stručnjacima i organizacijama.

Tehnička rješenja i strategije

Zaštita AI modela zahtijeva kombinaciju tehničkih i organizacijskih mjera. Stručnjaci predlažu nekoliko ključnih rješenja koja se mogu implementirati na razini razvoja i primjene:

Eksplicitne zabrane u fazi treniranja: Sustavno uklanjanje osjetljivih i opasnih tema iz podataka za treniranje, uz stalnu evaluaciju novih metoda za filtriranje štetnih primjera.
Validacija unosa: Prije nego što model procesuira prompt, ulazne poruke prolaze provjeru na potencijalno zlonamjerne ili manipulativne obrasce, uključujući leetspeak, kodiranje i simulacije policy datoteka.
Otkrivanje anomalija: Implementacija sustava za detekciju neuobičajenih ili sumnjivih interakcija korisnika s modelom. Sustavi u stvarnom vremenu nadziru moguće pokušaje jailbreakanja i upozoravaju na odstupanja od očekivanog ponašanja.
Robusno filtriranje outputa: Svaki odgovor koji model generira prolazi kroz dodatne filtere koji blokiraju ili maskiraju potencijalno opasne i neprimjerene informacije, čak i ako prompt prođe ulaznu validaciju.
Red teaming i kolektivno standardiziranje: Timovi stručnjaka testiraju modele simulirajući napade kako bi identificirali nove ranjivosti. Također, industrija potiče usvajanje zajedničkih sigurnosnih standarda.

Višeslojni pristup je nužan jer nijedna pojedinačna mjera nije dovoljna za zaštitu od sofisticiranih ili kombiniranih napada. Edukacija i osvještavanje o potencijalnim zloupotrebama, kao što je opisano u Brzi vodič za prepoznavanje deepfake sadržaja, također doprinosi otpornosti cijelog ekosustava.

Preporuke za korisnike i tvrtke

Krajnji korisnici i organizacije koje koriste ai umjetna inteligencija alate mogu značajno smanjiti rizike slijedeći nekoliko osnovnih preporuka. Sigurnost AI nije samo odgovornost razvijatelja, već i svih koji svakodnevno koriste takve sustave.

Pratite sigurnosne smjernice i upute proizvođača: Redovito provjeravajte obavijesti i ažuriranja sigurnosnih mjera. Koristite alati i servise s transparentnim pravilima zaštite podataka.
Birajte pouzdane i provjerene platforme: Prije korištenja AI servisa, informirajte se o sigurnosnim praksama pružatelja usluga i načinu pohrane vaših podataka. Primjer su alati za AI Image Creation with Stable Diffusion koji nude opcije za sigurno upravljanje generiranim sadržajem.
Edukacija zaposlenika i korisnika: Organizacije trebaju ulagati u redovitu edukaciju o rizicima povezanima s ai umjetna inteligencija. Jasne politike i procedura reagiranja na sigurnosne incidente pomažu u brzom otkrivanju i odgovoru na prijetnje.
Redovito testiranje i sigurnosni auditi: Provedite simulirane napade i interne revizije kako biste identificirali potencijalne slabosti prije nego što ih iskoriste napadači.
Pažljivo dijelite osobne i osjetljive podatke: Svjesno birajte što dijelite putem AI alata, pogotovo kod otvorenih ili besplatnih servisa.

Kombiniranjem tehničkih mjera s odgovornim ponašanjem korisnika, cjelokupni AI ekosustav postaje znatno otporniji na sigurnosne izazove. Ove preporuke nisu statične — moraju se stalno razvijati i prilagođavati novim prijetnjama koje napredna ai umjetna inteligencija donosi.

Uloga sigurnosti u budućnosti ai umjetna inteligencija sustava

Sigurnost u području ai umjetna inteligencija postaje ključan stup stabilnosti digitalnog društva. Kako modeli sve više utječu na svakodnevicu, od poslovanja do privatnog života, njihova zaštita prelazi iz tehničkog izazova u široko društveno pitanje. Dugoročno, sigurnost nije više samo obrana od pojedinačnih napada ili propusta, već proces stalnog učenja, testiranja i prilagodbe novih prijetnji. Ovdje donosimo pregled zašto baš taj pristup ima presudnu važnost za budućnost tehnologije i društva.

Neophodnost stalnog testiranja i edukacije

Razvoj i implementacija sigurnosnih mjera nikada nisu završeni procesi. AI modeli svakodnevno uče iz novih podataka, a napadi postaju sve sofisticiraniji. Zato industrija i znanstvena zajednica naglašavaju potrebu za kontinuiranim testiranjem obrambenih mehanizama. To uključuje:

Redovito provođenje simuliranih napada i sigurnosnih audita.
Prilagođavanje filtera i procedura novim vrstama napada, npr. leetspeak, roleplay metode, multiple-step promptovi.
Provođenje edukacije među developerima, IT sektorom i krajnjim korisnicima o najnovijim prijetnjama i načinima zaštite.

Bez ovog stalnog ciklusa testiranja i učenja, pojavljuju se rupe koje brzo mogu dovesti do masovnih zloupotreba. Samo široko i dosljedno znanje može povećati otpornost cijelog sustava.

Dugoročni značaj proaktivne sigurnosti

Umjesto reakcije na incidente, budućnost ai umjetna inteligencija zahtijeva izgradnju obrane već u fazi dizajna modela i infrastrukture. To znači:

Uključivanje sigurnosnih stručnjaka u rane faze razvoja.
Postavljanje jasnih etičkih i tehničkih standarda prilagođenih novim tehnologijama.
Integracija alata za automatsko otkrivanje anomalija i neobičnih obrazaca ponašanja.

Ovakav pristup nije samo tehničko pitanje, već i ulaganje u povjerenje javnosti. Svaki sigurnosni propust može imati domino-efekt kroz poslovne sektore, javne institucije, pa i šire društvo.

Društvene posljedice masovne zloupotrebe

Rizici povezani sa sigurnosnim manjkavostima ne ostaju unutar industrijskih krugova. Masovna zloupotreba AI modela može utjecati na povjerenje građana, ekonomske tokove i mentalno zdravlje pojedinaca. Primjeri iz prakse, gdje su modeli generirali štetne ili zlonamjerne upute, jasno pokazuju kako lako tehnologija može postati alat za destabilizaciju društva.

Važno je razumjeti da posljedice nisu ograničene samo na širenje lažnih informacija ili curenje podataka. Dugoročno, neregulirana i nesigurna ai umjetna inteligencija može dovesti do smanjenja radnih prilika, pojave novih oblika prijevara i gubitka kontrole nad ključnim sektorima. Više o širem utjecaju na društvo i gospodarstvo možete pročitati u članku Utjecaj AI na radno tržište u Europi.

Suradnja i razmjena znanja kao temelj napretka

Kako bi se odgovorilo na nove prijetnje, nužno je poticati suradnju između državnih tijela, industrije i akademske zajednice. Samo zajedničkim radom moguće je razviti standarde koji će funkcionirati u praksi, a ne samo na papiru. Razmjena informacija o novim vrstama napada, najboljoj praksi i rezulatima testiranja ubrzava razvoj učinkovitih rješenja.

Konačno, sigurnost ai umjetna inteligencija sustava je proces koji traži fleksibilnost, stalnu prisutnost i spremnost za brzo usvajanje novih znanja. Bez toga, tehnološki napredak može lako prerasti u izvor novih društvenih problema umjesto koristi.

TL;DR

Istraživanja su jasno pokazala da su vodeći AI modeli i dalje izloženi ozbiljnim sigurnosnim prijetnjama. Otkriveni univerzalni jailbreak dokazuje koliko je važno postavljanje čvrstih sigurnosnih standarda za ai umjetna inteligencija, ne samo u industriji već i u svakodnevnoj praksi korisnika. Napredak tehnologije nosi veliku odgovornost – svaki korisnik treba svjesno pristupiti upotrebi AI alata, provjeravati sigurnosne postavke i birati provjerene platforme.

Dugoročna sigurnost AI sustava zahtijeva stalno učenje, dijeljenje znanja i primjenu novih obrambenih tehnika. Svatko tko koristi ili razvija AI treba redovito pratiti preporuke i informirati se o rizicima, kao što je opisano u članku Razlozi za oprez pri dijeljenju fotografija s AI. Samo odgovornim ponašanjem i informiranošću možemo održati povjerenje i sigurnost u brzo mijenjajućem okruženju umjetne inteligencije.

Zahvaljujemo što pratite i dijelite ove važne informacije. Nastavite se educirati i dijelite svoja iskustva – svaki korak prema sigurnijem korištenju AI-ja doprinosi boljoj budućnosti za sve.