Kick-off sastanak na projektu AI-SPEAK održan je 31. januara 2024, uz online učešće spoljnih saradnika. Članovi projektnog tima, spoljni saradnici i podugovarači predstavili su se jedni drugima sa posebnim osvrtom na svoju ulogu na projektu. Diskutovalo se o pogodnim raspoloživim multimodalnim korpusima, sa stanovišta konteksta komunikacije, formata, kao i mogućih scenarija upotrebe. Dogovoreni su dalji koraci, u vezi sa akcizicijom daljih korpusa prema projektnom planu, kao i o pravcima daljeg istraživanja, pogotovo s obzirom na neočekivano brz razvoj u oblasti mašinskog učenja, odnosno, veštačke inteligencije.
Naše aktivnosti u prva tri meseca uključivale su proučavanje tekućeg stanja u oblasti kao i pripremno definisanje karakteristik multimodalnih (audio/video) korpusa na kojima će se u narednom periodu vršiti istraživanja. Važne aktivnosti u ovom periodu uključivale su i proučavanje karakteristika postojećih multimodalnih korpusa sa aspekta njihove upotrebljivosti u razvoju multimodalnih sistema za govornu komunikaciju između čoveka i mašine. Nabavljen je i veći deo opreme predviđene za rad na projektu, što uključuje i kompletnu opremu namenjenu snimanju multimodalne govorne AI-SPEAK baze u anehoičnoj komori Univerzitet u Novom Sadu, obezbeđene u okviru Erazmus+ projekta SENVIBE (598241-EPP-1-2018-1-RS-EPPKA2-CBHE-JP). Objavili smo i dva naučna rada iz oblasti teme projekta, dostupna na stranici Publikacije.
Naše aktivnosti u drugom tromesečju projekta uključivale su definisanje detaljnih planova implementacije, diseminacije i kontrole kvaliteta, koji su na raspolaganju na stranici Publikacije. Takođe, uključivale su i preliminarni rad na multimodalnom govornom korpusu RUSAVIC (Russian Audio-Visual Speech in Cars), dobijenom u saradnji sa Institutom za informatiku i automatiku Ruske akademije nauka i umetnosti iz Sankt Peterburga (SPIIRAS), kao i preliminarno ispitivanje još nekih istraživačkih pravaca. Uz pomoć opreme dobijene u toku prethodnog trimestra počeli smo sa produkcijom AI-SPEAK multimodalne govorne baze u anehoičnoj komori Univerziteta u Novom Sadu, u skladu sa predefinisanim tekstovima koje smo kreirali prema specifikacijama datim u predlogu projekta, i uz pomoć odgovarajućih video-promptova kreiranih za ovu priliku za svakog govornika ponaosob. Procesi pripreme teksta, samog snimanja i naknadne obrade snimaka paralelizovani su radi efikasnosti. Za vreme ovog trimestra uključili smo se i u organizacione aktivnosti oko ovogodišnje međunarodne naučne konferencije Speech and Computer (SPECOM), koja će se održati u novembru 2024. u Beogradu.
U toku trećeg tromesečja projekta završili smo rad na snimanju AI-SPEAK multimodalnog govornog korpusa i počeli pripremu Internet govornog korpusa, u skladu sa predlogom projekta. Obrada i labeliranje oba navedena govorna korpusa počeli su za vreme ovog trimestra, a proširene su i istraživačke aktivnosti pretežno u domenu multimodalnog prepoznavanja govora, kao i prepoznavanja govora samo na osnovu video snimka, što se naziva i čitanjem sa usana. U ovom periodu završena je i nabavka kompletne opreme, a intenzivirane su i aktivnosti u vezi sa organizacijom ovogodišnje međunarodne naučne konferencije Speech and Computer (SPECOM), koja će se održati u Beogradu u novembru 2024.
Većina naših aktivnosti u četvrtom tromesečju bila je posvećena organizaciji i učešću na međunarodnoj konferenciji Speech and Computer (SPECOM), koja se održala od 25. do 28. novembra 2024. godine u Beogradu. Ovaj događaj je organizovan u saradnji sa Institutom za informatiku i automatizaciju Ruske akademije nauka iz Sankt Peterburga (SPIIRAS). Svake godine konferencija nudi sveobuhvatan tehnički program koji predstavlja najnovija dostignuća u istraživanju i tehnologiji obrade govora i njihovim primenama. Dva generalna predsedavajuća konferencije bila su prof. Vlado Delić, član AI-SPEAK tima, i prof. Aleksej Karpov, spoljni saradnik AI-SPEAK projekta. Ostale aktivnosti na projektu uključivale su nastavak rada na obradi AI-SPEAK govornog korpusa i Internet govornog korpusa, namenjenih multimodalnom prepoznavanju i sintezi govora.
U petom tromesečju nastavili smo rad na prepoznavanju govora na osnovu video snimka bez zvuka ("čitanje s usana") i proširili aktivnosti na razvoj modela za audio-vizuelno prepoznavanje govora. U ovom periodu nastavili smo i rad na obradi AI-SPEAK govornog korpusa, nakon što smo sistematski identifikovali probleme i tipične greške u snimljenom materijalu. Takođe, nastavljen je kontinuirani rad na prikupljanju Internet govornog korpusa, a razvijeni su i odgovarajući softverski alati za njegovu obradu. Naime, u snimcima preuzetim sa interneta postoji nizak nivo kontrole nad sadržajem snimaka, česti su snimci u kojima se govornici smenjuju u kadru pa je potrebno automatski identifikovati prisustvo određenog govornika, kako u prostoru tako i u vremenu. U ovom periodu neka od naših prethodnih istraživanja objavljena su u radu u prestižnom naučnom časopisu Mathematics, ranga M21a.
Šesto tromesečje projekta bilo je obeleženo završnom fazom priprema AI-SPEAK govornog korpusa i AI-SPEAK video internet korpusa (VideoBase). AI-SPEAK korpus je javno dostupan istraživačkoj zajednici i sadrži snimke 30 govornika koji izgovaraju po 80 rečenica na srpskom i engleskom jeziku (30 zajedničkih za sve govornike i 50 onih koje su za svakog govornika različite). pored audio-snimaka govora, ovaj korpus sadrži i video-snimke regiona oko usana govornika, koji su dobijeni iz više uglova. Drugi korpus, AI-SPEAK video internet korpus (VideoBase), sadrži 2400 jedinstvenih video-snimaka ljudi koji govore u raznim situacijama (u studiju ili van njega), a ukupno trajanje snimaka je preko 1300 sati. Svi snimci su u visokoj rezoluciji od 1920x1080 piksela, sa 25 frejmova u sekundi.