David van Dijk, Asistent profesor, Yale University, i Bryan Perozzi, Istraživač, Google Research C2S-Scale duboko se upušta u to kako najbolje predstavljati ćelije i biološke informacije kao tekst, otkrivajući uzbudljive primjene za analizu pojedinačnih ćelija vođenih jezikom s velikim jezikovnim modelima.
Svaka ljudska osoba sastoji se od trilijuna ćelija, svaka s vlastitom funkcijom, bilo da prenosi kisik, bori se protiv infekcija ili gradi organe. Čak i unutar istog tkiva, nijedne dvije ćelije nisu potpuno jednake. Sekvenciranje RNA pojedinačnih ćelija (scRNA-seq) omogućuje nam mjerenje ekspresije gena pojedinačnih ćelija, otkrivajući što svaka ćelija radi u određenom trenutku. Ali postoji i problem: podaci o pojedinačnim ćelijama su ogromni, visokodimenzionalni i teško interpretabilni. Svaku ćeliju može predstavljati tisuće brojeva – mjerenja ekspresije gena – koja tradicionalno zahtijevaju specijalizirane alate i modele za analizu. To čini analizu pojedinačnih ćelija sporom, teško skalabilnom i ograničenom na eksperte.
Što ako bismo mogli pretvoriti tisuće tih brojeva u jezik koji ljudi i jezikovni modeli mogu razumjeti? To bi značilo da bismo mogli pitati ćeliju kako se osjeća, što radi ili kako bi se mogla odazvati na lijek ili bolest – i dobiti odgovor na jednostavan engleski jezik. Od pojedinačnih ćelija do cijelih tkiva, razumijevanje bioloških sistema na ovom nivou moglo bi transformirati način na koji studiramo, dijagnosticiramo i liječimo bolesti.
Danas u “Skaliranju velikih jezikovnih modela za novu generaciju analize pojedinačnih ćelija” uzbuđeni smo predstaviti Cell2Sentence-Scale (C2S-Scale), porodicu moćnih, otvorenih izvora velikih jezikovnih modela (LLM) treniranih da “čitaju” i “pišu” biološke podatke na nivou pojedinačnih ćelija. U ovom članku proći ćemo kroz osnovne pojmove single-cell biologije, kako pretvaramo ćelije u sekvence riječi i kako C2S-Scale otvara nove mogućnosti za biološka otkrića.
Od ćelija do rečenica
C2S-Scale pretvara profil ekspresije gena svake ćelije u sekvencu teksta, koju nazivamo “ćelijska rečenica”, koja sastoji se od popisa najaktivnijih gena u toj ćeliji, poredanih po nivou ekspresije gena. Time je moguće primijeniti prirodne jezikovne modele, poput onih koji se koriste u Googleovim modelima Gemini ili Gemma, na podatke scRNA-seq. C2S-Scale poredi nazive gena po ekspresiji i pretvara ih u prirodni jezik “ćelijskih rečenica”. Koristeći jezik kao sučelje, čini podatke o pojedinačnim ćelijama pristupačnijima, interpretabilnijima i fleksibilnijima. A jer je velika dio biologije – kao što su nazivi gena, tipovi ćelija i eksperimentalni metapodaci – već izražen u tekstu, LLM-i su prirodan izbor za obradu i razumijevanje ove informacije.
Upoznajte porodicu modela C2S-Scale
C2S-Scale gradi na Googleovoj porodici otvorenih modela Gemma, prilagođavajući ih za biološko razmišljanje putem inženjeringa podataka i pažljivo dizajniranih poticaja koji integriraju ćelijske rečenice, metapodatke i druge relevantne biološke kontekste. Arhitektura temeljnog LLM-a ostaje nepromijenjena, omogućujući C2S-Scale da u potpunosti koristi infrastrukturu, skalabilnost i bogati ekosistem koji je građen oko generalnih jezikovnih modela. Rezultat je skup LLM-ova treniranih na više od 1 milijardu tokena iz stvarnih transkriptomskih skupova podataka, bioloških metapodataka i znanstvene literature. C2S-Scale uključuje porodicu modela od 410 milijuna do 27 milijardi parametara, dizajniranih da ispune raznolike potrebe istraživačke zajednice. Manji modeli su efikasniji i pristupačniji – mogu se finetunirati ili implementirati s ograničenim računarskim resursima, što ih čini idealnim za istraživačke analize ili okruženja s ograničenim resursima. Veći modeli, iako su više računarski intenzivni, nude veću performansu na širokom rasponu bioloških zadataka. Objavljujući ovaj spektar veličina modela, omogućavamo korisnicima da odaberu najbolji model za njihov specifičan slučaj upotrebe, balansirajući performanse, brzinu i zahtjeve za računarskim resursima. Svi modeli bit će otvoreni izvori i dostupni za finetuning ili daljnju upotrebu.
C2S-Scale može odgovarati na raznovrsne ulazne upite za zadatke predviđanja i generiranja, omogućavajući konverzacijsku analizu pojedinačnih ćelija. Što C2S-Scale može učiniti?
Razgovarajte s biologijom: pitanja i odgovori iz podataka pojedinačnih ćelija
Pretpostavimo da netko pita: “Kako će ova T ćelija reagirati na anti-PD-1 terapiju (česta terapija za liječenje raka)?” Kao što je prikazano na lijevoj slici ispod, modeli C2S-Scale mogu odgovoriti na prirodan jezik, crpeći iz podataka ćelija i biološkog znanja koje su vidjeli tijekom pretprocesiranja. Time omogućavaju konverzacijsku analizu, gdje istraživači mogu komunicirati s podacima putem prirodnog jezika na način koji ranije nije bio mogućan, kao što je prikazano na desnoj slici ispod.
Tumačite podatke s prirodnim jezikom
C2S-Scale može generirati opisive rečenice o ćelijama, što omogućava korisnicima da brzo shvate šta se događa u njihovim podacima. Na primjer, ako imate skup podataka o T ćelijama, C2S-Scale može generirati rečenice poput “Ove T ćelije su aktivirane i eksprimiraju visoke nivoe gena za ćelijsku signalizaciju” ili “Ove T ćelije su neaktivirane i eksprimiraju niske nivoe gena za ćelijsku signalizaciju”. Ove rečenice mogu biti korisne za brzo prepoznavanje obrazaca i identifikaciju interesantnih ćelija za daljnje istraživanje.
Predviđanje funkcija gena
C2S-Scale može predvidjeti funkcije gena na temelju njihovih ekspresijskih profila. Na primjer, ako imate gen čije funkcije ne razumijete, C2S-Scale može predvidjeti njegove funkcije na temelju podataka o ekspresiji gena iz velikih skupova podataka. Ovo može biti korisno za identifikaciju novih gena i razumijevanje njihovih uloga u biološkim procesima.
Identifikacija ćelijskih podtipova
C2S-Scale može pomoći u identifikaciji podtipova ćelija na temelju njihovih ekspresijskih profila. Na primjer, ako imate skup podataka o T ćelijama, C2S-Scale može pomoći u identifikaciji različitih podtipova T ćelija na temelju njihovih ekspresijskih profila. Ovo može biti korisno za razumijevanje varijacija u imunskim odgovorima i identifikaciju ćelija koje su najvjerojatnije odgovorne za određene imunske reakcije.
Predviđanje odgovora na lijekove
C2S-Scale može predvidjeti kako će ćelije reagirati na lijekove na temelju njihovih ekspresijskih profila. Na primjer, ako imate skup podataka o T ćelijama i želite znati kako će se one odazvati na anti-PD-1 terapiju, C2S-Scale može predvidjeti njihove odgovore na temelju podataka o ekspresiji gena. Ovo može biti korisno za razumijevanje mehanizama akcije lijekova i identifikaciju lijekova koji su najefikasniji za određene tipove ćelija.
Generiranje novih hipoteza
C2S-Scale može generirati nove hipoteze o biološkim procesima na temelju podataka o ekspresiji gena. Na primjer, ako imate skup podataka o T ćelijama i želite generirati nove hipoteze o njihovim funkcijama, C2S-Scale može generirati hipoteze na temelju podataka o ekspresiji gena. Ove hipoteze mogu biti korisne za planiranje novih eksperimenata i istraživanja.
Zaključak
C2S-Scale predstavlja revoluciju u načinu na koji se analiza pojedinačnih ćelija izvodi, omogućavajući korisnicima da komuniciraju s podacima putem prirodnog jezika i otkrivaju nove biološke insajtse. Svoju moć i fleksibilnost, C2S-Scale postaje neprocjenjiv alat za istraživače koji žele razumjeti složenosti bioloških sistema na nivou pojedinačnih ćelija.
Česta pitanja
Kako se C2S-Scale trenira?
C2S-Scale se trenira na velikim skupovima podataka o ekspresiji gena, biološkim metapodacima i znanstvenoj literaturi. Modeli su dizajnirani da “čitaju” i “pišu” biološke podatke na nivou pojedinačnih ćelija, omogućavajući korisnicima da komuniciraju s podacima putem prirodnog jezika.
Koliko modela ima C2S-Scale?
C2S-Scale uključuje porodicu modela od 410 milijuna do 27 milijardi parametara, dizajniranih da ispune raznolike potrebe istraživačke zajednice. Manji modeli su efikasniji i pristupačniji, dok veći modeli nude veću performansu na širokom rasponu bioloških zadataka.
Kako se C2S-Scale koristi?
C2S-Scale se može koristiti za razne zadatke, uključujući pitanja i odgovore, tumačenje podataka, predviđanje funkcija gena, identifikaciju ćelijskih podtipova, predviđanje odgovora na lijekove i generiranje novih hipoteza. Korisnici mogu komunicirati s podacima putem prirodnog jezika, otkrivajući nove biološke insajtse.
Je li C2S-Scale dostupan?
Svi modeli C2S-Scale bit će otvoreni izvori i dostupni za finetuning ili daljnju upotrebu. Korisnici mogu preuzeti modele i prilagoditi ih svojim specifičnim potrebama.
Kako se C2S-Scale razlikuje od drugih jezikovnih modela?
C2S-Scale se razlikuje od drugih jezikovnih modela po tome što je specijaliziran za biološke podatke na nivou pojedinačnih ćelija. Modeli su dizajnirani da “čitaju” i “pišu” biološke podatke, omogućavajući korisnicima da komuniciraju s podacima putem prirodnog jezika.
C2S-Scale predstavlja revoluciju u načinu na koji se analiza pojedinačnih ćelija izvodi, omogućavajući korisnicima da komuniciraju s podacima putem prirodnog jezika i otkrivaju nove biološke insajtse. Svoju moć i fleksibilnost, C2S-Scale postaje neprocjenjiv alat za istraživače koji žele razumjeti složenosti bioloških sistema na nivou pojedinačnih ćelija.



![Novi hibridni platforma za kvantnu simulaciju magnetizma 4 ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno]](https://umjetnai.com/wp-content/uploads/2025/08/526750221_1101661142120887_3623883531199391571_n-1-350x250.jpg)

![ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno] 6 chatgpt5](https://umjetnai.com/wp-content/uploads/2025/08/chatgpt5-360x180.webp)







![Novi hibridni platforma za kvantnu simulaciju magnetizma 14 ChatGPT 5 je stigao: brži, pametniji i dostupan svima [Besplatno]](https://umjetnai.com/wp-content/uploads/2025/08/526750221_1101661142120887_3623883531199391571_n-1-360x180.jpg)

