Evaluacija modela Tehnologija Umjetna inteligencija

Zašto Bloom?

21.12.2025.

196

Ponašanje za sigurnost i poravnavanje je skupo dizajnirati i održavati. Timi moraju ručno kreirati scenarije, pokrenuti mnoge interakcije, pročitati duge transkripte i agregirati ocjene. Kako se modeli razvijaju, stari benchmarki mogu postati zastarjeli ili se mogu pojaviti u podacima za treniranje. Anthropicov tim istraživača vidi ovo kao problem skalabilnosti; trebaju način da brže generiraju sveže evaluacije za nepravilna ponašanja dok još uvijek zadržavaju smislenost metrika.

Bloom cilja na ovaj razmak. Umjesto fiksnog benchmarka s malim skupom upita, Bloom raste evaluacijski paket iz početne konfiguracije. Početna konfiguracija određuje koje ponašanje treba proučavati, koliko scenarija generirati i koji stil interakcije koristiti. Okvir zatim na svakom pokretanju proizvodi nove, ali ponašanje konzistentne scenarije, dok još uvijek omogućuje reprodukciju kroz zabilježenu početnu konfiguraciju.

Početna konfiguracija i dizajn sustava

Bloom je implementiran kao Python pipeline i objavljen pod MIT licencom na GitHubu. Glavni unos je evaluacija „početna konfiguracija”, definirana u seed.yaml. Ova datoteka referencira ključ ponašanja u behaviors/behaviors.json, opcionalne primjerke transkripta i globalne parametre koji oblikuju cijeli pokret.

Ključni elementi konfiguracije uključuju:

behavior, jedinstveni identifikator definiran u behaviors.json za ciljano ponašanje, na primjer, sycophancy ili samoodržavanje
examples, nula ili više few-shot transkripta pohranjenih pod behaviors/examples/
total_evals, broj rolloutova za generiranje u paketu
rollout.target, model pod evaluacijom kao što je claude-sonnet-4
kontrole kao što su diversity, max_turns, modality, napor u razmišljanju i dodatne kvalitete ocjenjivanja

Bloom koristi LiteLLM kao backend za pozive modela API-ja i može komunicirati s modelima Anthropica i OpenAI-a kroz jedan sučelje. Integrira se s Weights and Biases za velike pretrage i izvozi transkripte koji su kompatibilni s Inspectom.

Četverostupanjski agentni pipeline

Bloomov proces evaluacije organiziran je u četiri agentna stupnja koja se izvršavaju redom:

Agent razumijevanja: Ovaj agent čita opis ponašanja i primjerne razgovore. Gradi strukturirani sažetak toga što se računa kao pozitivna instanca ponašanja i zašto je ovo ponašanje važno. Atributira specifične dijelove u primjerima uspješnim demonstracijama ponašanja kako bi kasnije stupnjevi znali što tražiti.
Agent ideje: Ideacijski stupanj generira kandidatske scenarije evaluacije. Svaki scenarij opisuje situaciju, osobu korisnika, alate koje ciljani model može pristupiti i što je uspješan rollout. Bloom grupira generiranje scenarija kako bi učinkovito koristio token budžet i koristi parametar raznolikosti za razmjenu između više različitih scenarija i više varijacija po scenariju.
Agent rollouta: Agent rollouta instancira ove scenarije s ciljanim modelom. Može pokrenuti višestruke razgovore ili simulirane okoline i zabilježiti sve poruke i pozive alata. Parametri konfiguracije kao što su max_turns, modality i no_user_mode kontroliraju koliko autonomni je ciljani model tijekom ove faze.
Agenti ocjenjivanja i meta ocjenjivanja: Model ocjenjivača ocjenjuje svaki transkript za prisutnost ponašanja na numeričkoj ljestvici i može ocijeniti dodatne kvalitete kao što su realizam ili sila ocjenjivača. Meta ocjenjivač zatim čita sažetke svih rolloutova i proizvodi izvješće na razini paketa koje ističe najvažnije slučajeve i obrasce. Glavna metrika je stopa izazivanja, udio rolloutova koji osvoje barem 7 od 10 bodova za prisutnost ponašanja.

Zaključak

Bloom predstavlja značajan korak naprijed u automatizaciji evaluacija ponašanja za modele umjetne inteligencije. Njegova sposobnost generiranja dinamičkih, ali konzistentnih scenarija omogućuje bržu i učinkovitiju evaluaciju ponašanja, što je ključno za održavanje sigurnosti i poravnanja modela. S integracijom s popularnim alatima kao što su LiteLLM i Weights and Biases, Bloom pruža robustan okvir za istraživače i inženjere koji rade na graničnim modelima umjetne inteligencije.

Česta pitanja

Što je Bloom?

Bloom je otvoreni agentni okvir koji automatizira evaluacije ponašanja za modele umjetne inteligencije. Omogućuje generiranje dinamičkih scenarija za evaluaciju kako bi se mjerao učestalost i jačina određenog ponašanja u realističnim situacijama.

Zašto je Bloom važan?

Bloom rješava problem skalabilnosti u dizajnu i održavanju evaluacija ponašanja. Omogućuje brže generiranje svežih evaluacija dok zadržava smislenost metrika, što je ključno za održavanje sigurnosti i poravnanja modela umjetne inteligencije.

Kako Bloom radi?

Bloom koristi četverostupanjski agentni pipeline koji uključuje razumijevanje, ideaciju, rollout i ocjenjivanje. Svaki stupanj ima specifičnu ulogu u generiranju scenarija, izvođenju interakcija s modelom i ocjenjivanju rezultata.

Može li se Bloom koristiti s drugim modelima?

Da, Bloom je dizajniran tako da može komunicirati s različitim modelima umjetne inteligencije kroz LiteLLM backend. To omogućuje fleksibilnost u korištenju Bloom-a s modelima od različitih dobavljača.

Je li Bloom besplatan za korištenje?

Bloom je objavljen pod MIT licencom, što znači da je besplatan za korištenje, modificiranje i distribuiranje. To omogućuje široku dostupnost i suradnju u zajednici istraživača i inženjera.