Mnogi od nas svakodnevno razgovaraju sa digitalnim asistentima, i može se očekivati da ćemo to u budućnosti raditi sve češće. S druge strane, poznato je da vizuelna informacija o pokretima lica (posebno o pokretima usana) doprinosi tačnosti prepoznavanja govora, naročito u prisustvu buke ili druge akustičke degradacije, pa čak i da doprinosi razumljivosti sintetizovanog govora. Glavni cilj projekta je razvoj naprednih algoritama mašinskog učenja u oblasti audio-vizuelne govorne komunikacije između ljudi i mašina.
Jezgro tima predstavljaju istraživači Laboratorije za akustiku i govorne tehnologije na Fakultetu tehničkih nauka Univerziteta u Novom Sadu. Ovaj tim je, u saradnji sa srpskim preduzećem „AlfaNum“, već razvio prepoznavanje i sintezu govora na bazi neuralnih mreža za srpski i njemu srodne jezike, kao i govorno-jezičke korpuse od kojih su ove tehnologije izuzetno zavisne.
Projekat se fokusira na razvoj naprednih algoritama mašinskog učenja u oblasti audio-vizuelne govorne komunikacije između ljudi i mašina. Istraživanja će se oslanjati na dva višejezična audio-vizuelna govorna korpusa koji će biti razvijeni u okviru Projekta (jedan snimljen u kontrolisanim uslovima a drugi zasnovan na video-materijalu prikupljenom sa interneta), i biće zasnovana na najsavremenijim metodama veštačke inteligencije, uključujući ekstrakciju obeležja na osnovu dubokog učenja, kao i vremensko modelovanje pomoću rekurentnih neuralnih mreža ili vremenskih konvolucionih mreža. Višejezičnost razvijenih modela podrazumeva njihovu mogućnost da za obuku koriste podatke na više različitih jezika, kao i njihovu sposobnost da prepoznaju i sintetizuju govor na bilo kom od tih jezika, zahvaljujući mrežnom embedingu na fonetskom nivou. Modeli će biti evaluirani kroz implementaciju audio-vizuelnog prepoznavanja i sinteze govora u dva postojeća proizvoda iz oblasti govornih tehnologija za srpski jezik, ali će biti primenljivi na bilo koji jezik. Samim tim, Projekat će, osim doprinosa očuvanju srpskog jezika u digitalnom dobu, imati jasan uticaj na privredu i društvo i na međunarodnom nivou, imajući u vidu sve veću upotrebu govornih tehnologija u svakodnevnom životu.