U eri veštačke inteligencije, granica između autentičnog i veštački generisanog multimedijalnog sadržaja postaje sve nejasnija. Danas je moguće relativno lako sintetizovati govor, menjati pokrete usana ili ubacivati audio zapise u postojeće video snimke, stvarajući uverljivu iluziju da je neka osoba izgovorila reči koje zapravo nikada nije rekla. Takve manipulacije predstavljaju ozbiljan izazov — od širenja dezinformacija i narušavanja reputacije pojedinaca, do potencijalnih bezbednosnih i pravnih posledica.
Kako tehnologije za generisanje govora i video sadržaja (TTS, voice conversion, lip-sync modeli, deepfake sistemi) postaju sve sofisticiranije, postaje sve teže pouzdano utvrditi da li su audio i video zapisi autentični, međusobno usklađeni i vremenski sinhronizovani. Ljudsko oko i uho često nisu dovoljni da detektuju suptilne nesklade između zvuka i slike, naročito kada su manipulacije pažljivo izvedene ili rezultat automatskih AI sistema.
U tom kontekstu, automatska detekcija audio-vizuelne sinhronizacije dobija novu, izuzetno važnu ulogu — ne samo kao tehnički problem, već kao ključni alat u borbi protiv digitalnih prevara, lažnih vesti i zloupotrebe veštačke inteligencije.
Cilj ovog takmičenja je da okupi učenike i studente i podstakne ih da, kroz timski rad i inovativna rešenja, razviju sisteme koji mogu automatski da otkriju neslaganja između zvuka i slike i doprinesu razvoju pouzdanijih i bezbednijih multimedijalnih tehnologija.
Zadatak učesnika je da razviju sistem koji automatski detektuje da li su dati audio i video zapisi međusobno sinhronizovani ili ne.
Takmičenje je timsko, a svaki tim može imati do četiri člana. Učesnicima će biti dostupan skup podataka sa projekta AI-SPEAK, koji sadrži snimke 30 govornika, pri čemu svaki govornik izgovara ukupno 160 rečenica — 80 na srpskom i 80 na engleskom jeziku.
Osnovni skup podataka sadrži ispravno sinhronizovane audio-video snimke. Učesnici imaju slobodu da samostalno osmisle i primene različite strategije augmentacije i generisanja anomalija kako bi kreirali nesinhronizovane primere i unapredili robusnost svojih modela. Dozvoljeno je korišćenje svih pristupa — od klasične obrade signala do metoda mašinskog i dubokog učenja, kao i hibridnih audio-vizuelnih modela.
Za evaluaciju će biti korišćen poseban test skup, koji će biti naknadno objavljen i na osnovu kog će se određivati prolaz timova u drugi krug. Tokom razvoja modela, timovima je na raspolaganju validacioni skup od 20 snimaka sa različitim tipovima anomalija, uključujući:
Zadatak sistema je da za svaki audio-video par donese odluku da li su signali sinhronizovani ili nisu.
U prvom krugu se bira 5 najboljih timova na osnovu uspešnosti klasifikacije test snimaka. Timovi organizatorima dostavljaju predviđene labele (sinhronizovano/nije sinhronizovano), a organizatori na osnovu tačnosti (accuracy), F1 mere i osetljivosti, donose odluku o 5 najboljih timova koji prolaze u drugi krug takmičenja. Odabrani timovi dostavljaju organizatorima kod i izveštaj. Kriterijumi za odabir pobednika:
Ko može da učestvuje:
Važni datumi:
Dodatne napomene:
Kontakt:
Baza: kompletna AI-SPEAK baza (srpski i engleski jezik, audio, video, transkripti, poravnanja) i nekoliko uzoraka za evaluaciju. Kompletna baza može se preuzeti sa linka