🔹 KATEGORIJA B: Audio-vizuelna sinteza govora na srpskom jeziku

Uvod

Razvoj digitalnih avatara koji govore prirodno, uverljivo i u realnom vremenu predstavlja jedan od najsloženijih izazova savremene veštačke inteligencije. Iako su sistemi za sintezu govora (Text-to-Speech) dostigli visok nivo kvaliteta, precizna i prirodna animacija lica — naročito pokreta usana, vilice i mimike — i dalje ostaje otvoren istraživački problem.

Poseban izazov predstavlja audio-vizuelna sinteza govora na jezicima sa ograničenim resursima, kao što je srpski jezik. Ograničeni skupovi podataka, manjak standardizovanih alata i dodatni zahtevi za rad u realnom vremenu čine ovaj problem izuzetno zahtevnim, ali i izuzetno relevantnim.

Cilj ovog takmičenja je da studentima viših godina osnovnih studija i master studija omogući rad na realnom, istraživački relevantnom problemu iz oblasti audio-vizuelne sinteze govora, uz korišćenje profesionalne baze podataka i realnog produkcionog scenarija.

Opis zadatka

Zadatak učesnika je da razviju sistem za audio-vizuelnu sintezu govora na srpskom jeziku, gde je:

  • Ulaz: tekst (i govor sintetizovan na osnovu tog teksta)
  • Izlaz: vremenski zavisni koeficijenti blendshape-ova koji upravljaju animacijom lica avatara

Cilj je da animacija izgleda što prirodnije, da bude precizno sinhronizovana sa govorom i da sistem radi u (ili blizu) realnog vremena.

Učesnici nemaju direktan pristup avataru. Na osnovu predatih blendshape koeficijenata, organizatori generišu video animacije, koje se vraćaju timovima radi unapređenja rešenja kroz više iteracija. Za dati skup rečenica učesnici generišu blendshape koeficijente, te im organizatori vraćaju video animiranog lika pomoću predatih koeficijenata. Učesnici potom imaju dve nedelje da na osnovu dobijenih rezultata naprave eventualna unapređenja. Potom dobijaju novi skup rečenica, generisane blendshape koeficijente dostavljaju organizatorima koji prave konačne video snimke animacije avatara na osnovu kojih se rangiraju timovi.

Na osnovu dobijenih snimaka, analiziraće se prirodnost i uverljivosti animacije, audio-vizuelna sinhronizacija i stabilnost predikcija. Nakon odabira 5 najboljih rešenja, timovi predaju kod i izveštaj. Kriterijumi za odabir pobednika:

  • Prirodnost animacije
  • Kašnjenje, odnosno mogućnost real-time sinteze
  • Ukupna robusnost sistema
  • Kvalitet i jasnoća napisanog izveštaja
  • Kvalitet i jasnoća prezentacije uživo.

Detalji

Ko može da učestvuje:

  • Studenti master studija
  • Studenti 3. i 4. godine fakulteta

Važni datumi:

  • Prijava timova: 28.02.2026.
  • Objavljivanje validacionog skupa na koji se može dobiti povratni snimak animacije do 5x: 07.03.2026.
  • Objavljivanje test skupa: 21.03.2026.
  • Predaja rezultata na test skupu: 28.03.2026.
  • Proglašenje 5 najboljih timova koji idu u drugi krug: 04.04.2026.
  • Predaja koda, izveštaja i prezentacije: 11.04.2026.
  • Finalni događaj – prezentacije uživo: 25.04.2026.

Dodatne napomene:

  • Za najbolje su obezbeđene nagrade
  • Svi učesnici su dobrodošli na finalni događaj (samostalno finansiraju dolazak)
  • Biće obezbeđeno i online učešće na finalnom događaju (za sve one koji ne mogu da prisustvuju uživo)

Kontakt:

Baza: AI-SPEAK (srpski deo baze po kom je pravljen avatar, viskokvalitetan video 100 fps, audio, poravnanja po fonemu, spisak podržanih blendshape-ova, izdvojeni koeficijenti blendshape-ova po frejmu, sintetizovane rečenice). Kompletna baza može se preuzeti sa linka