TehnologijaVijestiZdravlje

Precizno poliranje genoma s DeepPolisher: Poboljšavanje temeljnih…

Kishwar Shafin, voditelj tehničkog tima, i Andrew Carroll, voditelj proizvoda, Google Research 6. DeepPolisher je novi alat temeljen na dubokom učenju koji značajno poboljšava točnost sastavljanja genoma tako da precizno ispravlja greške na nivou baza, što je nedavno igralo ključnu ulogu u poboljšanju referentnog ljudskog pangenoma.

Kishwar Shafin, voditelj tehničkog tima, i Andrew Carroll, voditelj proizvoda, Google Research
6. kolovoza 2025.

DeepPolisher je novi alat temeljen na dubokom učenju koji značajno poboljšava točnost sastavljanja genoma tako da precizno ispravlja greške na nivou baza, što je nedavno igralo ključnu ulogu u poboljšanju referentnog ljudskog pangenoma. Brzi linkovi: Članak, Kôd, Repozitorij ×

Ključ za razumijevanje nasljeđa, bolesti i evolucije nalazi se u genomu, koji je kodiran u nukleotidima (tj. bazama A, T, G i C). DNK sekvenceri mogu čitati ove nukleotide, ali to učiniti točno i na velikoj skali je izazov zbog vrlo male veličine baznih parova. Međutim, kako bismo otkrili tajne koje se kriju u genomu, moramo moći sastaviti referentni genom što je moguće bliži savršenosti. Greške u sastavljanju mogu ograničiti metode koje se koriste za identifikaciju gena i proteina, a mogu i prouzročiti kasnija dijagnostička postupka da propuste bolesti koje uzrokuju varijante. U sastavljanju genoma isti se genom sekvencira više puta, što omogućuje iterativno ispravljanje grešaka. Ipak, s obzirom da je ljudski genom sastavljen od 3 milijarde nukleotida, čak i mala stopa grešaka može značiti veliki ukupan broj grešaka i ograničiti korisnost izvedenog genoma. U nastojanju da neprestano poboljšamo resurse za sastavljanje genoma, predstavili smo DeepPolisher, otvoreni metod za sastavljanje genoma koji smo razvili u suradnji s Genomskim institutom UC Santa Cruz. U našoj nedavnoj radnjoj, “Precizno poliranje sastavljanja genoma s DeepPolisher”, objavljenoj u Genomskim istraživanjima, opisali smo kako ovaj proces proširuje postojeće metode za poboljšanje točnosti sastavljanja genoma. DeepPolisher smanjuje broj grešaka u sastavu za 50% i broj grešaka umetanja ili brisanja (“indel”) za 70%. To je posebno važno jer indel greške ometaju identifikaciju gena.

Pozadina

Postoji nekoliko načina mjerenja DNK, najčešće uključuje hvatanje procesa kopiranja DNK. Jedan metod za to uključuje priključivanje oznaka molekula različitih boja na odvojene blokove nukleotida i promatranje procesa dodavanja svakog od njih na DNK molekulu koja se kopira. DNK strojevi za kopiranje uvijek kopiraju niti u određenom smjeru, pa iako je informacija redundantno kodirana na obje niti, nukleotidi s jedne niti se čitaju u jednom trenutku. Identifikacija nukleotida zahtijeva detektore koji mogu razlučiti pojedinačne molekule, što ograničava točnost mjerenja. Jedna tehnologija koja je skalira ovaj metod, razvijena od strane Illumina, kopira jednu molekulu DNK koja se sekvencira u grupu identičnih kopija. Zatim nadzire kako se grupa kopira u sinkroniji, što povećava signal za svaku bazu. Međutim, jer se ne može osigurati da se grupa kopira savršeno u sinkroniji, grupa može desinkronizirati tako da se signali različitih baza miješaju, što ograničava duljinu DNK koja se mjere na nekoliko stotina nukleotida. Iako su ove sekvence (nazvane “čitanja”) kratke, još uvijek su korisne za analizu. Uspoređujući ih s referentnim genomom, tj. postojećom mapom genoma vrste koja se sekvencira, moguće je mapirati mnoga kratka čitanja na referentni genom, što omogućuje izgradnju potpunijeg genoma uzorkovanog pojedinca. To se zatim može usporediti s referentnim genomom kako bi se bolje razumjelo kako se genom subjekta razlikuje. Ljudski genom sastoji se od dvije niti koje redundantno kodiraju informacije (lijevo), organizirane u kromosome, s jednim punim kopijom naslijeđenom od svakog roditelja (desno). (Slike iz NHGRI) Iako je tehnologija sekvenciranja poboljšana, ostaju još uvijek izazovi. Prvo, metod ovisi o postojanju robustnog referentnog genoma, što sam po sebi izuzetno teško stvoriti. Iako postoji takav referentni genom, neki dijelovi genoma više podsjećaju na druge dijelove, čineći ih teško sigurno mapirati na referentni genom. Da bismo riješili te izazove, znanstvenici su razvili postupke koji mogu sekvencirati pojedinačne molekule, omogućujući čitanja od desetaka tisuća nukleotida. Inicijalni je proces imao neprihvatljive stope grešaka (~10%). To je riješeno kada je Pacific Biosciences razvio način sekvenciranja iste molekule u više prolaza, smanjujući stopu grešaka na samo 1%, slično kratkim metodima čitanja. Google i Pacific Biosciences surađivali su na prvoj demonstraciji toga na ljudskom genomu. Naš tim je to onda učinio daljnje razvijajući DeepConsensus, koji koristi sekvencni transformator za točnije konstruiranje ispravne sekvence iz početno pogrešnih baza. Danas Pacific Biosciences implementira DeepConsensus na svojim dugim sekvencerima čitanja kako bi smanjio stopu grešaka na manje od 0.1%. Dok je ova stopa grešaka znatno bolja od dotadašnjeg stanja, doseći točnost potrebnu za izgradnju novog, gotovo savršenog referentnog genoma još uvijek je izazov.

DeepPolisher: Alat za precizno poliranje genoma

DeepPolisher je otvoreni metod za sastavljanje genoma koji smo razvili u suradnji s Genomskim institutom UC Santa Cruz. U našoj nedavnoj radnjoj, “Precizno poliranje sastavljanja genoma s DeepPolisher”, objavljenoj u Genomskim istraživanjima, opisali smo kako ovaj proces proširuje postojeće metode za poboljšanje točnosti sastavljanja genoma. DeepPolisher smanjuje broj grešaka u sastavu za 50% i broj grešaka umetanja ili brisanja (“indel”) za 70%. To je posebno važno jer indel greške ometaju identifikaciju gena.

Funkcionalnost i prednosti

DeepPolisher koristi duboko učenje za precizno ispravljanje grešaka na nivou baza u sastavljanju genoma. Ovaj alat je dizajniran da rade s postojećim metodama sastavljanja genoma i poboljšava njihovu točnost. DeepPolisher je dostupan kao otvoreni kôd, što znači da ga može koristiti bilo tko koji želi poboljšati točnost svojih sastavljanja genoma. DeepPolisher je testiran na različitim vrstama genoma i pokazao je izuzetnu točnost u ispravljanju grešaka. DeepPolisher je također brzi, što ga čini idealnim za upotrebu u istraživačkim i kliničkim okruženjima.

Primjene

DeepPolisher ima široku primjenu u različitim oblastima genomskih istraživanja. Najčešće se koristi za poboljšavanje točnosti referentnih genoma, što je ključno za identifikaciju gena i proteina. DeepPolisher se također može koristiti za poboljšavanje točnosti dijagnostičkih postupaka, što je važno za identifikaciju bolesti koje uzrokuju varijante. DeepPolisher se može koristiti i za poboljšavanje točnosti metagenomskih analiza, što je važno za proučavanje mikrobioma i drugih ekosustava.

Usporedba s postojećim metodama

DeepPolisher se može usporediti s postojećim metodama sastavljanja genoma, kao što su ALLPATHS-LG i SOAPdenovo. DeepPolisher je pokazao znatno veću točnost u ispravljanju grešaka na nivou baza. DeepPolisher je također brži od postojećih metoda, što ga čini idealnim za upotrebu u istraživačkim i kliničkim okruženjima. DeepPolisher je također dostupan kao otvoreni kôd, što znači da ga može koristiti bilo tko koji želi poboljšati točnost svojih sastavljanja genoma.

Zaključak

DeepPolisher je revolucionaran alat za sastavljanje genoma koji koristi duboko učenje za precizno ispravljanje grešaka na nivou baza. Ovaj alat je dizajniran da rade s postojećim metodama sastavljanja genoma i poboljšava njihovu točnost. DeepPolisher je dostupan kao otvoreni kôd, što znači da ga može koristiti bilo tko koji želi poboljšati točnost svojih sastavljanja genoma. DeepPolisher ima široku primjenu u različitim oblastima genomskih istraživanja i pokazao je izuzetnu točnost u ispravljanju grešaka. DeepPolisher je također brzi, što ga čini idealnim za upotrebu u istraživačkim i kliničkim okruženjima.

Česta pitanja

Koje su glavne prednosti DeepPolishera?

Glavne prednosti DeepPolishera uključuju precizno ispravljanje grešaka na nivou baza, smanjenje broja grešaka u sastavu za 50% i broj grešaka umetanja ili brisanja (“indel”) za 70%, brzu radnu brzinu i dostupnost kao otvoreni kôd.

Može li DeepPolisher raditi s postojećim metodama sastavljanja genoma?

Da, DeepPolisher je dizajniran da rade s postojećim metodama sastavljanja genoma i poboljšava njihovu točnost.

Koliko je DeepPolisher točan?

DeepPolisher je testiran na različitim vrstama genoma i pokazao je izuzetnu točnost u ispravljanju grešaka. DeepPolisher je također brzi, što ga čini idealnim za upotrebu u istraživačkim i kliničkim okruženjima.

Može li DeepPolisher koristiti bilo tko?

Da, DeepPolisher je dostupan kao otvoreni kôd, što znači da ga može koristiti bilo tko koji želi poboljšati točnost svojih sastavljanja genoma.

Kako DeepPolisher može pomoći u identifikaciji bolesti?

DeepPolisher može pomoći u identifikaciji bolesti poboljšavanjem točnosti dijagnostičkih postupaka, što je važno za identifikaciju bolesti koje uzrokuju varijante. DeepPolisher se također može koristiti za poboljšavanje točnosti metagenomskih analiza, što je važno za proučavanje mikrobioma i drugih ekosustava.

Povezano

1 of 261

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)