Učenje strojeva jeziku biologije: Skaliranje velikih jezičnih modela za analizu pojedinačnih stanica

30.11.2025.

196

Svaki čovjek sastoji se od trilijuna stanica, od kojih svaka ima svoju funkciju, bilo da se radi o prijenosu kisika, borbi protiv infekcija ili izgradnji organa.

Svaki čovjek sastoji se od trilijuna stanica, od kojih svaka ima svoju funkciju, bilo da se radi o prijenosu kisika, borbi protiv infekcija ili izgradnji organa. Čak i unutar istog tkiva, nijedna stanica nije potpuno identična drugoj.

Jedna od najvažnijih tehnika u biologiji je sekvenciranje RNA pojedinačnih stanica (scRNA-seq), koje nam omogućuje mjerenje ekspresije gena pojedinačnih stanica, otkrivajući što svaka stanica radi u određenom trenutku. Međutim, postoji jedan problem: podaci o pojedinačnim stanicama su ogromni, visoko dimenzionalni i teški za interpretaciju. Svaka stanica može biti predstavljena tisućama brojeva — mjerenja ekspresije gena — što tradicionalno zahtijeva specijalizirane alate i modele za analizu. To čini analizu pojedinačnih stanica sporom, teškom za skaliranje i ograničenom na stručne korisnike.

Što ako bismo mogli pretvoriti tih tisuća brojeva u jezik koji ljudi i jezični modeli mogu razumjeti? Drugim riječima, što ako bismo mogli pitati stanicu kako se osjeća, što radi ili kako bi mogla reagirati na lijek ili bolest — i dobiti odgovor na običnom jeziku? Razumijevanje bioloških sustava na ovoj razini moglo bi transformirati način na koji proučavamo, dijagnosticiramo i liječimo bolesti.

U ovom članku predstavljamo Cell2Sentence-Scale (C2S-Scale), obitelj moćnih, otvorenih velikih jezičnih modela (LLM) osposobljenih za „čitanje“ i „pisanje“ bioloških podataka na razini pojedinačnih stanica. Proći ćemo kroz osnove biologije pojedinačnih stanica, kako pretvaramo stanice u nizove riječi i kako C2S-Scale otvara nove mogućnosti za biološka otkrića.

Od stanica do rečenica

C2S-Scale pretvara profil ekspresije gena svake stanice u niz teksta, nazvan „rečenica stanice“, koja se sastoji od popisa najaktivnijih gena u toj stanici, poredanih prema razini ekspresije gena. Ovo omogućuje primjenu modela prirodnog jezika, poput onih korištenih u Googleovim modelima Gemini ili Gemma, na scRNA-seq podatke.

C2S-Scale poredava nazive gena prema ekspresiji i pretvara ih u prirodni jezik „rečenica stanice“. Korištenjem jezika kao sučelja, činimo podatke o pojedinačnim stanicama pristupačnijima, interpretabilnijima i fleksibilnijima. Budući da je mnogo toga u biologiji — poput naziva gena, tipova stanica i eksperimentalnih metapodataka — već izraženo u tekstu, LLM-ovi su prirodan izbor za obradu i razumijevanje tih informacija.

Upoznajte obitelj modela C2S-Scale

C2S-Scale se temelji na Googleovoj otvorenoj obitelji modela Gemma, prilagođavajući ih za biološko rasuđivanje kroz inženjering podataka i pažljivo dizajnirane upite koji integriraju rečenice stanica, metapodatke i drugi relevantni biološki kontekst. Temeljna arhitektura LLM-a ostaje nepromijenjena, omogućujući C2S-Scale-u da u potpunosti koristi infrastrukturu, skalabilnost i bogat ekosustav izgrađen oko modela opće namjene. Rezultat je skupina LLM-ova obučenih na više od 1 milijarde tokena iz stvarnih transkriptomskih skupova podataka, bioloških metapodataka i znanstvene literature.

C2S-Scale uključuje obitelj modela koji se kreću od 410 milijuna do 27 milijardi parametara, dizajniranih da zadovolje različite potrebe istraživačke zajednice. Manji modeli su učinkovitiji i pristupačniji — mogu se dodatno obučavati ili implementirati s ograničenim računalnim resursima, što ih čini idealnima za istraživačke analize ili okruženja s ograničenim resursima. Veći modeli, iako zahtijevaju više računalne snage, nude bolje performanse u širokom rasponu bioloških zadataka. Oslobađanjem ovog spektra veličina modela, omogućujemo korisnicima da odaberu najbolji model za svoju specifičnu upotrebu, balansirajući performanse, brzinu i zahtjeve za računalnom snagom. Svi modeli bit će dostupni kao otvoreni izvor i bit će dostupni za dodatnu obuku ili daljnju upotrebu.

Što C2S-Scale može učiniti?

C2S-Scale omogućuje interakciju s biologijom: postavljanje pitanja i odgovaranje na temelju podataka o pojedinačnim stanicama. Zamislite da netko pita: „Kako će ova T stanica reagirati na anti-PD-1 terapiju (uobičajena terapija za liječenje raka)?” Kao što je prikazano, C2S-Scale modeli mogu odgovoriti na prirodnom jeziku, koristeći podatke o stanicama i biološko znanje koje su stekli tijekom prethodne obuke. Ovo omogućuje razgovornu analizu, gdje istraživači mogu komunicirati sa svojim podacima putem prirodnog jezika na način koji prije nije bio moguć.

Interpretacija podataka s prirodnim jezikom

C2S-Scale može automatski generirati biološke sažetke scRNA-seq podataka na različitim razinama složenosti, od opisivanja tipova stanica pojedinačnih stanica do generiranja sažetaka cijelih tkiva ili eksperimenata. Ovo pomaže istraživačima da brže i s većim povjerenjem interpretiraju nove skupove podataka, čak i bez pisanja složenog koda.

Zakoni skaliranja u biologiji

Središnje otkriće našeg rada je da biološki jezični modeli slijede jasne zakone skaliranja — performanse se predvidivo poboljšavaju kako se veličina modela povećava. Veći C2S-Scale modeli dosljedno nadmašuju manje modele u nizu bioloških zadataka, od anotacije tipova stanica do generiranja stanica i tkiva. Za interpretaciju skupova podataka, primijetili smo dosljedna poboljšanja u rezultatima semantičke sličnosti kada se povećava veličina modela u režimu učinkovitosti parametara. Uz potpunu dodatnu obuku, postotak preklapanja gena u generiranju tkiva značajno se poboljšao kako se kapacitet modela povećao na 27 milijardi parametara. Ovaj trend odražava ono što se promatra u modelima opće namjene.

Zaključak

C2S-Scale predstavlja značajan korak naprijed u analizi pojedinačnih stanica, omogućujući istraživačima da koriste prirodni jezik za interakciju s kompleksnim biološkim podacima. Ova inovacija ne samo da olakšava analizu podataka, već i otvara nove mogućnosti za biološka otkrića i razumijevanje složenih bioloških sustava. Kako se tehnologija razvija, očekujemo da će C2S-Scale postati ključni alat u istraživanju biologije i medicine, omogućujući brže i preciznije dijagnostike i terapije.

Najčešća pitanja (FAQ)

Što je C2S-Scale?

C2S-Scale je obitelj velikih jezičnih modela osposobljenih za analizu bioloških podataka na razini pojedinačnih stanica, omogućujući interakciju s tim podacima putem prirodnog jezika.

Kako C2S-Scale pomaže u analizi pojedinačnih stanica?

C2S-Scale pretvara podatke o ekspresiji gena u prirodni jezik, čineći ih pristupačnijima i lakšima za interpretaciju, što omogućuje bržu analizu i bolje razumijevanje bioloških sustava.

Koje su prednosti korištenja C2S-Scale modela?

Prednosti uključuju poboljšanu interpretaciju podataka, mogućnost postavljanja pitanja na prirodnom jeziku i prilagodljivost modela različitim potrebama istraživača.

Kako se C2S-Scale razlikuje od drugih jezičnih modela?

C2S-Scale je specijaliziran za biološke podatke i koristi jedinstvene pristupe za obradu i analizu podataka o pojedinačnim stanicama, dok drugi modeli možda nisu prilagođeni za ovu vrstu analize.

Hoće li C2S-Scale biti dostupan za javnost?

Da, svi modeli C2S-Scale bit će dostupni kao otvoreni izvor, što omogućuje istraživačima da ih koriste, dodatno obučavaju ili prilagođavaju svojim potrebama.