Razvoj digitalnih avatara koji govore prirodno, uverljivo i u realnom vremenu predstavlja jedan od najsloženijih izazova savremene veštačke inteligencije. Iako su sistemi za sintezu govora (Text-to-Speech) dostigli visok nivo kvaliteta, precizna i prirodna animacija lica — naročito pokreta usana, vilice i mimike — i dalje ostaje otvoren istraživački problem.
Poseban izazov predstavlja audio-vizuelna sinteza govora na jezicima sa ograničenim resursima, kao što je srpski jezik. Ograničeni skupovi podataka, manjak standardizovanih alata i dodatni zahtevi za rad u realnom vremenu čine ovaj problem izuzetno zahtevnim, ali i izuzetno relevantnim.
Cilj ovog takmičenja je da studentima viših godina osnovnih studija i master studija omogući rad na realnom, istraživački relevantnom problemu iz oblasti audio-vizuelne sinteze govora, uz korišćenje profesionalne baze podataka i realnog produkcionog scenarija.
Zadatak učesnika je da razviju sistem za audio-vizuelnu sintezu govora na srpskom jeziku, gde je:
Cilj je da animacija izgleda što prirodnije, da bude precizno sinhronizovana sa govorom i da sistem radi u (ili blizu) realnog vremena.
Učesnici nemaju direktan pristup avataru. Na osnovu predatih blendshape koeficijenata, organizatori generišu video animacije, koje se vraćaju timovima radi unapređenja rešenja kroz više iteracija. Za dati skup rečenica učesnici generišu blendshape koeficijente, te im organizatori vraćaju video animiranog lika pomoću predatih koeficijenata. Učesnici potom imaju dve nedelje da na osnovu dobijenih rezultata naprave eventualna unapređenja. Potom dobijaju novi skup rečenica, generisane blendshape koeficijente dostavljaju organizatorima koji prave konačne video snimke animacije avatara na osnovu kojih se rangiraju timovi.
Na osnovu dobijenih snimaka, analiziraće se prirodnost i uverljivosti animacije, audio-vizuelna sinhronizacija i stabilnost predikcija. Nakon odabira 5 najboljih rešenja, timovi predaju kod i izveštaj. Kriterijumi za odabir pobednika:
Ko može da učestvuje:
Važni datumi:
Dodatne napomene:
Kontakt:
Baza: AI-SPEAK (srpski deo baze po kom je pravljen avatar, viskokvalitetan video 100 fps, audio, poravnanja po fonemu, spisak podržanih blendshape-ova, izdvojeni koeficijenti blendshape-ova po frejmu, sintetizovane rečenice). Kompletna baza može se preuzeti sa linka