Googleov novi temeljni model pretvara praznine u podacima nosivih uređaja u korisne zdravstvene uvide

Nosivi uređaji obećavaju stalno praćenje zdravlja, ali podaci koje prikupljaju rijetko su potpuni. Pametne satove uklanjaju za punjenje, remeni se tijekom vježbanja, a režimi uštednje energije isključuju senzore na satne sate. Tradicionalni modeli samoučenja se raspadaju kad se suoče s tim prazninama, što inženjere prisiljava na izbacivanje velikih dijelova stvarnih podataka ili na upotrebu sumnjivih metoda popunjavanja.

Googleov najnoviji temeljni model, LSM‑2, rješava taj problem. Pokrenut strategijom samoučenja nazvanom Adaptivno i naslijeđeno maskiranje (AIM), LSM‑2 uči iz fragmentiranih tokova podataka bez ikakvog popunjavanja nedostajućih vrijednosti. Obuka je izvedena na 40 milijuna sati anonimnih podataka s Fitbit i Pixel Watch uređaja od više od 60.000 sudionika, a model nadmašuje svoj prethodnik LSM-1 na klasifikacijskim, regresijskim i generativnim benchmarkima, dok ostaje otporan na ekstreme izbacivanja senzora.

Zašto nedostaci podataka nisu iznimka, već pravilo

Među 1,6 milijuna dnevnih prozora koji su ispitani od strane tima, ni jedan niz nije bio potpun. Prekidaji dolaze od uklanjanja uređaja, okolišnog šuma, pokretne artefakte i periodičnog pražnjenja energije. Tradicionalne linije rješenja se oslanjaju na odbacivanje nepotpunih uzoraka ili statističko popunjavanje praznina, što dovodi do smanjenja skupine za obuku ili uvođenja skrivenog vjerovanja. AIM tretira nedostajuće čitanja kao prvotni značajni element podataka nosivih uređaja, omogućavajući modelu da iskorištava svaki dostupni vremenski razdoblje bez pretpostavljanja što nije snimljeno.

Unutarnja struktura AIM-a: dvije maskirne mehanizme za jedan šumski svijet

AIM proširuje paradigma maskiranih autoenkodera dvije komplementarne ideje:

Naslijeđeno maskiranje prirodne praznine naslijeđuju se iz prvotnog tokova podataka i nikad se ne popunjavaju.
Adaptivno maskiranje dodatni tokeni se umjetno sakrivaju za objektiv rekonstrukcije, ali broj izbacanih iz encodera varira s svakim nizom, zadržavajući računanje unaprijed.

U toku preobuke, AIM prvo smanjuje ulazni tok maskirajući fiksnu dijelom maskiranih tokena, što smanjuje upotrebu memorije. Nakon toga, AIM prilagođava broj maskiranih tokena s svakim nizom, što zadržava računanje unaprijed. Taj proces omogućava modelu da učinke na praznine u podacima nosivih uređaja bez ikakvog popunjavanja nedostajućih vrijednosti.

LSM-2: odličan rezultat u praksi

LSM-2 je pokazao izvanredne rezultate u praksi. Na temelju 40 milijuna sati anonimnih podataka s Fitbit i Pixel Watch uređaja od više od 60.000 sudionika, model je nadmašio svoj prethodnik LSM-1 na klasifikacijskim, regresijskim i generativnim benchmarkima. LSM-2 je također pokazao otpornost na ekstreme izbacivanja senzora, što ga čini idealnim izborom za pružanje zdravstvenih uvida iz podataka nosivih uređaja.

Što je LSM-2 u praksi?

LSM-2 je temeljni model koji se može koristiti za pružanje zdravstvenih uvida iz podataka nosivih uređaja. Model je dizajniran da rješi