U svijetu genomike, svaka nukleotidna jedinica je od iznimne važnosti. Jedna pogrešno postavljena baza ili mala promjena u DNA sekvenci može dovesti do pogrešnog poravnanja gena, sakriti varijante povezane s bolestima ili omesti cijeli proces otkrivanja lijekova. Do nedavno je ispravljanje takvih grešaka zahtijevalo tjedne ručne intervencije i skupu laboratorijsku provjeru. DeepPolisher, nova open-source platforma za duboko učenje razvijena u suradnji s Google Researchom i UC Santa Cruz Genomics Institute, promijenila je taj proces. Automatizacijom posljednjeg koraka ispravljanja grešaka, alat smanjuje pogreške na razini bazi za otprilike 50% i umetne i izbrišane pogreške za više od 70%.
Zašto je još uvijek važno ispravljati greške u doba dugih sekvenci
Moderni sekvenceri mogu čitati pojedinačne DNA molekule duljine desetke tisuća baza, ali su sirovi signali prilično buku. Pacific Biosciencesova tehnika smanjuje stopu grešaka po bazi na oko 1%. Googleov raniji model DeepConsensus dodatno poboljšava točnost na manje od 0,1% dok se molekule još nalaze na instrumentu. Unatoč ovim impresivnim rezultatima, u trotrimestru milijuna baza ljudskog genomskog nacrt-a ostaje tisuće pogrešaka. Kada se više dugih sekvenci spoji u jedinstvenu strukturu, preostale greške se koncentriraju u repetitivnim područjima, granicama haplotipova i homopolimer trakovima – to su točno mjesta na kojima klinički laboratoriji traže patogene varijante.
Tradicionalni alati za ispravljanje grešaka oslanjaju se na poravnanje kratkih, izuzetno točnih Illumina sekvenci s nacrtom i glasanje na neslaganja. Ovaj pristup radi, ali ne može popraviti greške koje podržava većina sekvenci, a posebno se suočava s umetnim i izbrišenim pogreškama duljine više od nekoliko baza. DeepPolisher je dizajniran da prevlada te ograničenja, učeći statističke obrasce koji razlikuju stvarne varijacije od sistematskih grešaka sekvenciranja.
Kako DeepPolisher funkcionira
DeepPolisher se temelji na Transformer arhitekturi koja je također korištena u DeepConsensus. Umjesto sirovog izlaza sekvencera, alat uzima gotov nacrt koji je proizveden bilo kojim modernim assemblerom dugih sekvenci. Model obrađuje četiri paralelna kanala informacija: (1) sam nacrt, (2) statističke karakteristike sekvenciranja, (3) informacije o repetitivnim regijama i (4) podatke o haplotipovima. Kombinirajući ove izvore, DeepPolisher predviđa točne pozicije koje trebaju biti ispravljene i generira unaprijeđeni nacrt.
Ključna inovacija je sposobnost modela da prepozna obrasce koji ukazuju na sistematske greške, poput ponavljanja iste greške u više sekvenci ili anomalija u dužini homopolimer traka. Time se smanjuje potreba za dodatnim laboratorijskim testiranjem i ubrzava cijeli proces izgradnje referentnog genomskog nacrt-a.
Prednosti DeepPolishera za istraživače i kliničare
- Smanjuje vrijeme obrade i smanjuje potrebu za dodatnim laboratorijskim testiranjem
- Ubrzava cijeli proces izgradnje referentnog genomskog nacrt-a
- Popravlja pogreške na razini bazi za otprilike 50% i umetne i izbriš