U nedavnom istraživanju koje je objavljeno u časopisu Science, znanstvenici iz Sveučilišta u Kaliforniji, San Diego, i Massachusetts Institute of Technology razotkrili su način na koji se kompleksno ponašanje velikih jezičnih modela može precizno kontrolirati u roku od sekundi. Ovaj napredak otkriva da se unutarnje „crne kutke“ modela, poput Llama, GPT-4o i Claude, upravljaju jednostavnim geometrijskim linijama – konceptnim vektorima – koje je moguće locirati i prilagoditi u manje od 60 sekundi uz običnu grafičku karticu.
Konceptni vektori: skriveni pokazivači u svakom modelu
Umjesto milijuna međusobno povezanih parametara, istraživači su otkrili da se pojedinačne ideje – od hindi jezika do teorija zavjere – pohranjuju kao ravne linije u višedimenzionalnom prostoru modela. Jednom kada se ti vektori izoliraju pomoću novog algoritma nazvanog Rekurzivna mašina za značajke (RFM), ponašanje modela može se „podesiti“ jednostavnom aritmetikom vektora: dodavanjem vektora model naginje prema konceptu, a oduzimanjem njegov utjecaj se smanjuje.
Trening RFM zahtijeva manje od 500 primjera i radi na jednoj NVIDIA A100 grafičkoj kartici. U testovima, cijeli proces obično traje manje od 60 sekundi, što je mnogo brže od tradicionalnog dodatnog podešavanja ili petlji učenja pojačanja s povratnom informacijom čovjeka.
Hirurško uređivanje bez ponovnog treniranja
Moć uređivanja modela bez skupa ponovnog treniranja otvara mogućnost brzih, ciljano usmjerenih popravaka. U jednoj demonstraciji, tim je poboljšao prijevod koda iz Pythona u C++ povećanjem „programskog logičkog“ vektora i smanjenjem „jezične sintakse“. Upravljani model je premašio osnovni model koji je bio pokrenut samo s uputom „prevedi ovaj kod“, smanjujući stopu pogrešaka za 28 % na standardnom skupu podataka za programiranje.
Budući da su promjene lokalizirane, ostale sposobnosti ostaju netaknute. Isti model je nastavio pisati poeziju, odgovarati na trivijalna pitanja i rješavati matematičke zadatke s izvornom preciznošću, dokazujući da upravljanje može biti precizno, a ne općenito.
Otkrivanje halucinacija prije nego što dođu do korisnika
Osim poboljšanja performansi, pristup nudi i novi sigurnosni mehanizam. Istraživači su otkrili da modeli često „haluciniraju“ – stvaraju lažne ili nerealne odgovore – koje je moguće otkriti prije nego što dođu do korisnika. Analizom konceptnih vektora, moguće je identificirati i eliminirati takve greške, što čini modele pouzdanijim i sigurnijim za upotrebu.
Pitanja i odgovori
Kako ovaj pristup može pomoći u stvaranju pouzdanijih AI sustava?
Ovaj pristup omogućava brzo i precizno uređivanje modela, što smanjuje rizik od halucinacija i drugih grešaka. Time se modeli čine pouzdanijim i sigurnijim za upotrebu u različitim aplikacijama.
Je li ovaj pristup kompatibilan s već postojećim AI modelima?
Da, ovaj pristup može se koristiti s većinom postojećih velikih jezičnih modela, uključujući Llama, GPT-4o i Claude. To omogućava brzo i efikasno prilagođavanje postojećih modela bez potrebe za potpuno novim treniranjem.
Koji su budući koraci u razvoju ovog pristupa?
Istraživači planiraju proširiti ovaj pristup na druge vrste AI modela, uključujući multimodalne sustave koji obrađuju tekst, slike i zvuk. Također će istraživati mogućnosti primjene ovog pristupa u medicinskim i drugim kritičnim aplikacijama.