U današnjem digitalnom svijetu glasovne aplikacije, od virtualnih pomoćnika do usluga prepisivanja, postale su sastavni dio svakodnevnog života. Međutim, većina tih alata podržava samo nekoliko velikih jezika, a mnoge afričke zajednice ostaju bez adekvatnih resursa na vlastitim jezicima. Google Research je odgovorio na taj nedostatak pokretanjem projekta WAXAL, koji donosi opsežan, otvoreni korpus govora za 27 afričkih jezika. Ovi jezici se govore u 26 zemalja i ukupno ih koristi preko 100 milijuna ljudi.
Što je WAXAL?
WAXAL je dvosmjerni korpus koji se sastoji od dvije posebne zbirke podataka: WAXAL‑ASR i WAXAL‑TTS. Komponenta WAXAL‑ASR sadrži otprilike 1.846 sati prirodnog, neuređenog govora s točnim prijepisima. S druge strane, WAXAL‑TTS pruža više od 565 sati profesionalno snimljenog govora visoke kvalitete. Obje zbirke objavljene su pod vrlo povoljnom licencom Creative Commons BY‑4.0. Ova licenca omogućuje istraživačima, programerima i široj javnosti da slobodno razvijaju i poboljšavaju glasovne tehnologije. Cilj je stvoriti alate koji precizno odražavaju jedinstvene tonalne i morfološke karakteristike afričkih jezika.
Metodologija prikupljanja podataka
Za razliku od tradicionalnih metoda snimanja koje se oslanjaju na unaprijed napisane skripte, WAXAL‑ASR je prikupio autentični razgovorni govor. Sudionici su bili zamoljeni da opišu slike iz Googleove zbirke Open Images. Ovaj pristup potiče prirodnu upotrebu fraza, stanke i prebacivanje kodova (kod‑switching), što vjernije odražava stvarne komunikacijske situacije. Sudionici su bili raznoliki kako bi se osigurala široka pokrivenost.