LifestyleTehnologijaVijesti

Osnovni Modeli Grafova za Relacijske Podatke

godine, Michael Galkin, istraživač u Google istraživanjima, i Pramod Doguparty, inženjer softvera u Google Adsima, objavili su članak o osnovnim modelima grafova (GFM) za relacijske podatke. Ovaj članak bavi se kako se relacijske tablice mogu tretirati kao interkonektirani grafovi, omogućujući treniranje osnovnih modela koji se mogu generalizirati na proizvoljne tablice, značajke i zadatke.

U svibnju 2025. godine, Michael Galkin, istraživač u Google istraživanjima, i Pramod Doguparty, inženjer softvera u Google Adsima, objavili su članak o osnovnim modelima grafova (GFM) za relacijske podatke. Ovaj članak bavi se kako se relacijske tablice mogu tretirati kao interkonektirani grafovi, omogućujući treniranje osnovnih modela koji se mogu generalizirati na proizvoljne tablice, značajke i zadatke. Brzi linkovi ×

Relacijske baze podataka čine glavninu formata podataka u poduzećima i pokreću mnoge usluge predviđanja, kao što su preporuke sadržaja ili predviđanje prometa. Većina ne-trivialnih aplikacija koristi više tablica – u nekim slučajevima, čak i stotine tablica – i izvući korisnu vrijednost iz tih mreža tablica nije trivijalno. Tradicionalne metode strojnog učenja (ML) za tablice (kao što su stablasta struktura odlučivanja) često ne uspijevaju iskoristiti punu strukturu povezanosti ovih relacijskih shema. S druge strane, nedavne napredne u ML nude alate za izgradnju grafičkih neuronskih mreža (GNN) prilagođenih grafičkim podacima, gdje se industrijski relevantni zadaci mogu okviriti kao klasifikacija čvorova (ili regresija) ili predviđanja na razini grafa. Međutim, većina GNN-a je fiksirana na određenom grafu na kojem je model treniran i ne može se generalizirati na nove grafove s novim čvorovima, vrstama rubova, značajkama i oznakama čvorova. Na primjer, model treniran na velikom benchmarku citatnog grafa od 100 milijuna čvorova ne može se ponovo koristiti za vaš vlastiti graf (npr. transakcije između korisnika i proizvoda) jer su prostori značajki i oznaka jako različiti, pa ćete morati ponovo trenirati isti model s vašim vlastitim podacima. Dok su neka početna pokušaja pokazala mogućnost koncepta u specifičnim zadacima predviđanja veza i klasifikacije čvorova, još uvijek ne postoji generalistički model koji može naučiti zanimljive reprezentacije iz relacijskih podataka i riješiti sve zadatke na razini čvorova, veza i grafa.

Danas istražujemo mogućnost dizajniranja jednog modela koji bi se istakao na interkonektiranim relacijskim tablicama i istovremeno se mogao generalizirati na proizvoljan skup tablica, značajki i zadataka bez dodatnog treniranja. Uzbuđeni smo da podijelimo naš nedavni napredak u razvoju takvih osnovnih modela grafova (GFM) koji potiskuju granice grafičkog učenja i tabličnog ML-a daleko izvan standardnih bazelina.

Relacijske Tablice kao Grafovi

Mi tvrdimo da iskorištavanje strukture povezanosti između tablica ključno je za učinkovite algoritme strojnog učenja i bolju performansu u daljnjim koracima, čak i kada su tablični podaci značajki (npr. cijena, veličina, kategorija) rijetki ili šumni. U tom smislu, jedini korak pripreme podataka sastoji se od transformiranja kolekcije tablica u jedan heterogeni graf. Proces je dosta jednostavan i može se izvršiti na velikoj skali: svaka tablica postaje jedinstveni tip čvora, a svaki redak u tablici postaje čvor. Za svaki redak u tablici, njegove vanjske ključeve odnosi postaju tipski rubovi prema odgovarajućim čvorovima iz drugih tablica, dok se ostatak stupaca tretira kao značajke čvora (tipično s numeričkim ili kategorijskim vrijednostima). Opcionalno, možemo također zadržati vremenske informacije kao značajke čvora ili rubova.

Priprema podataka sastoji se od transformiranja tablica u jedan graf, gdje svaki redak tablice postaje čvor odgovarajućeg tipa čvora, a stupci vanjskih ključeva postaju rubovi između čvorova. Veze između pet tablica postaju rubovi u rezultirajućem grafu. Transformiranje relacijskih tablica u grafove za svaku ciljnu domenu rezultira zasebnim grafovima s različitim brojem tipova čvorova, tipova rubova, značajki čvora i oznaka čvora. Sljedeći izazov je kreirati jedan generalizabilni model strojnog učenja, koji se može trenirati na jednom grafu (skupu tablica) i izvršiti inferenciju na bilo kojem nevidljivom grafu, uprkos razlikama u strukturi i shemi.

Osnovni Modeli Grafova

Tipičan recept za izgradnju osnovnih modela je korištenje visokokapacitne neuronske mreže (kao što je Transformer) trenirane na velikim količinama raznovrsnih podataka. Jedinstveni izazov GFM-a je nedostatak zajedničkog mehanizma tokenizacije za grafove. U kontrastu, kada se Transformer primjenjuje na jeziku i vizualnim modelima, svaki mogući niz može se predstaviti putem tokena iz pripremljenog rječnika ili slike i videi mogu se kodirati putem slika, odnosno. Kada se primjenjuje na heterogenim grafovima napravljenim od relacijskih podataka, ovo zahtijeva prijenosne metode za kodiranje proizvoljnih shema baza podataka – bez obzira na broj tipova čvorova (klasa) i rubova između njih – i rukovanje značajkama čvorova. To uključuje izvođenje fiksne veličine predstave za čvorove s, na primjer, tri kontinuirane float značajke ili trideset kategorijskih značajki. Želimo jedan model koji se može generalizirati na proizvoljne tablice i tipove čvorova – na primjer, treniranje na citatnim grafovima i pokretanje inferencije na grafovima proizvoda.

Zaključak

Osnovni modeli grafova predstavljaju revolucionarni korak u svijetu strojnog učenja, omogućujući nam da iskoristimo potencijal relacijskih podataka na nov način. Ovi modeli ne samo da poboljšavaju performanse u zadacima predviđanja, već i otvaraju nove mogućnosti za istraživanje i primjenu u raznim domenama. Kao što se tehnologija razvija, očekujemo da će osnovni modeli grafova postati još važniji i utjecajni, pružajući korisne alate za rješavanje složenih problema u različitim industrijama.

Česta Pitanja

1. Kako se osnovni modeli grafova razlikuju od tradicionalnih metoda strojnog učenja za tablice?

Osnovni modeli grafova iskorištavaju strukturu povezanosti između tablica, što omogućuje modelima da nauče zanimljive reprezentacije iz relacijskih podataka. Tradicionalne metode strojnog učenja za tablice, kao što su stablasta struktura odlučivanja, ne uspijevaju iskoristiti punu strukturu povezanosti ovih relacijskih shema.

2. Može li jedan osnovni model grafova biti treniran na jednom grafu i primijenjen na drugom?

Da, osnovni modeli grafova su dizajnirani tako da se mogu generalizirati na proizvoljne grafove, čak i one s novim čvorovima, vrstama rubova, značajkama i oznakama čvorova. To znači da model treniran na jednom grafu može se primijeniti na drugom, uprkos razlikama u strukturi i shemi.

3. Koje su primjene osnovnih modela grafova u stvarnom svijetu?

Osnovni modeli grafova mogu se primijeniti u raznim domenama, uključujući preporuke sadržaja, predviđanje prometa, analizu mreža i mnogo toga drugog. Oni poboljšavaju performanse u zadacima predviđanja i otvaraju nove mogućnosti za istraživanje i primjenu.

4. Kako se pripremaju podaci za osnovne modele grafova?

Priprema podataka za osnovne modele grafova sastoji se od transformiranja kolekcije tablica u jedan heterogeni graf. Svaka tablica postaje jedinstveni tip čvora, a svaki redak u tablici postaje čvor. Vanjski ključevi odnosi postaju tipski rubovi prema odgovarajućim čvorovima iz drugih tablica, dok se ostatak stupaca tretira kao značajke čvora.

Povezano

1 of 260

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)