U posljednjih nekoliko tjedana svijet umjetne inteligencije uzdrmao je vijest o masovnom curenju memorije u sustavima povezanima s ChatGPT-om. Problem ne utječe samo na pojedinačne aplikacije, već i na sve organizacije koje koriste velike jezične modele u produkciji. Curenje memorije nije obična programska greška – radi se o ozbiljnom iscrpljivanju resursa koje povećava kašnjenje, podiže troškove i narušava pouzdanost cijelog sustava. U nastavku donosimo detaljnu analizu problema, opisujemo kako se manifestira, razotkrivamo temeljne uzroke i nudimo konkretne korake za sprječavanje i otklanjanje curenja.
Opseg problema i pogođeni sustavi
Najčešće se curenje memorije očituje kroz neograničeno povećanje unutarnjeg stanja, osobito u predmemoriji žetona i međuspremnicima konteksta. U okruženjima s visokim protokom zahtjeva, sustavi koji koriste sučelja za ChatGPT, prilagođene modele s dodatnim slojevima ili posredničke platforme za razgovorne sesije primijetili su stalni, neponovljivi porast korištenja radne i grafičke memorije. Za razliku od tradicionalnih curenja, gdje se zaboravljeni objekti jednostavno ostave u memoriji, kod velikih jezičnih modela radi se o složenim višedimenzionalnim tenzorima i predmemorijama ključ‑vrijednost koje ostaju zadržane i nakon završetka korisničkog upita.
Problem se pojavljuje u različitim načinima implementacije, a težina varira ovisno o arhitekturi infrastrukture:
- Sučelja za programiranje aplikacija: Prilagođene aplikacije koje održavaju dugotrajne sesije ili koordiniraju višestr