AI-SPEAK - Kategorija A

Uvod

U eri veštačke inteligencije, granica između autentičnog i veštački generisanog multimedijalnog sadržaja postaje sve nejasnija. Danas je moguće relativno lako sintetizovati govor, menjati pokrete usana ili ubacivati audio zapise u postojeće video snimke, stvarajući uverljivu iluziju da je neka osoba izgovorila reči koje zapravo nikada nije rekla. Takve manipulacije predstavljaju ozbiljan izazov — od širenja dezinformacija i narušavanja reputacije pojedinaca, do potencijalnih bezbednosnih i pravnih posledica.

Kako tehnologije za generisanje govora i video sadržaja (TTS, voice conversion, lip-sync modeli, deepfake sistemi) postaju sve sofisticiranije, postaje sve teže pouzdano utvrditi da li su audio i video zapisi autentični, međusobno usklađeni i vremenski sinhronizovani. Ljudsko oko i uho često nisu dovoljni da detektuju suptilne nesklade između zvuka i slike, naročito kada su manipulacije pažljivo izvedene ili rezultat automatskih AI sistema.

U tom kontekstu, automatska detekcija audio-vizuelne sinhronizacije dobija novu, izuzetno važnu ulogu — ne samo kao tehnički problem, već kao ključni alat u borbi protiv digitalnih prevara, lažnih vesti i zloupotrebe veštačke inteligencije.

Cilj ovog takmičenja je da okupi učenike i studente i podstakne ih da, kroz timski rad i inovativna rešenja, razviju sisteme koji mogu automatski da otkriju neslaganja između zvuka i slike i doprinesu razvoju pouzdanijih i bezbednijih multimedijalnih tehnologija.

Opis zadatka

Zadatak učesnika je da razviju sistem koji automatski detektuje da li su dati audio i video zapisi međusobno sinhronizovani ili ne.

Takmičenje je timsko, a svaki tim može imati do četiri člana. Učesnicima će biti dostupan skup podataka sa projekta AI-SPEAK, koji sadrži snimke 30 govornika, pri čemu svaki govornik izgovara ukupno 160 rečenica — 80 na srpskom i 80 na engleskom jeziku.

Osnovni skup podataka sadrži ispravno sinhronizovane audio-video snimke. Učesnici imaju slobodu da samostalno osmisle i primene različite strategije augmentacije i generisanja anomalija kako bi kreirali nesinhronizovane primere i unapredili robusnost svojih modela. Dozvoljeno je korišćenje svih pristupa — od klasične obrade signala do metoda mašinskog i dubokog učenja, kao i hibridnih audio-vizuelnih modela.

Za evaluaciju će biti korišćen poseban test skup, koji će biti naknadno objavljen i na osnovu kog će se određivati prolaz timova u drugi krug. Tokom razvoja modela, timovima je na raspolaganju validacioni skup od 20 snimaka sa različitim tipovima anomalija, uključujući:

vremensko kašnjenje audio signala u odnosu na video,
audio zapis koji ne pripada datom video snimku,
delimična poklapanja (npr. ispravan početak, pogrešan nastavak),
promene brzine ili tempa govora u odnosu na pokrete usana,
kombinacije anomalija koje oponašaju realistične deepfake scenarije.

Zadatak sistema je da za svaki audio-video par donese odluku da li su signali sinhronizovani ili nisu.

U prvom krugu se bira 5 najboljih timova na osnovu uspešnosti klasifikacije test snimaka. Timovi organizatorima dostavljaju predviđene labele (sinhronizovano/nije sinhronizovano), a organizatori na osnovu tačnosti (accuracy), F1 mere i osetljivosti, donose odluku o 5 najboljih timova koji prolaze u drugi krug takmičenja. Odabrani timovi dostavljaju organizatorima kod i izveštaj. Kriterijumi za odabir pobednika:

Uspešnost klasifikacije
Inovativnost rešenja
Kvalitet i jasnoća napisanog izveštaja
Kvalitet i jasnoća prezentacije uživo.

Detalji

Ko može da učestvuje:

srednjoškolci
studenti 1. i 2. godine fakulteta

Važni datumi:

Prijava timova: 28.02.2026.
Objavljivanje test skupa: 21.03.2026.
Predaja rezultata na validacionom i test skupu: 28.03.2026.
Proglašenje 5 najboljih timova koji idu u drugi krug: 04.04.2026.
Predaja koda, izveštaja i prezentacije: 11.04.2026.
Finalni događaj – prezentacije uživo: 25.04.2026.

Dodatne napomene:

Za najbolje su obezbeđene nagrade
Svi učesnici su dobrodošli na finalni događaj (samostalno finansiraju dolazak)
Biće obezbeđeno i online učešće na finalnom događaju (za sve one koji ne mogu da prisustvuju uživo)

Kontakt:

Nikša Jakovljević: jakovnik@uns.ac.rs
Tijana Nosek: tijana.nosek@uns.ac.rs

Baza: kompletna AI-SPEAK baza (srpski i engleski jezik, audio, video, transkripti, poravnanja) i nekoliko uzoraka za evaluaciju. Kompletna baza može se preuzeti sa linka

← Nazad na takmičenje

🔹 KATEGORIJA A: Zvuk i slika – istina ili manipulacija?

Uvod

Opis zadatka

Detalji