Microsoft ima "predobar" alat za deepfakeove, ne želi ga pustiti u javnost

Predstavljen je model VASA-1, koji je u stanju stvoriti realistične video zapise ljudskog lica, samo na temelju jedne fotografije i audio isječka nečijeg govora. Dobiveni deepfake zastrašujuće je dobar

Sandro Vrbanus ponedjeljak, 22. travnja 2024. u 17:08

Otkako se pojavila tehnologija deepfakea, značajno je napredovala i postalo je sve lakše čak i običnom korisniku stvoriti neki AI generirani deepfake sadržaj. No, i dalje se u pravilu može vidjeti što je stvarni, a što računalno generirani prikaz ljudskog lica u pokretu. Microsoftovo novi alat VASA-1 mogao bi, pak, potpuno izbrisati granicu između videa i deepfakea, i zato ga njegovi tvorci ne planiraju učiniti dostupnim široj javnosti prije nego budu sigurni da će se tehnologija upotrebljavati na odgovoran način.

Sve iz jedne fotografije

VASA-1 je model za animiranje lica virtualnih likova, uz vrlo malo ulaznih informacija. Za to mu je potrebna tek jedna jedina statična fotografija lica i audio isječak nečijeg govora. Sustav je tada u stanju od fotografije načiniti model "živog" lica, prilagoditi ga govoru sa zvučne snimke, sinkronizirati jedno s drugim, ali pritom i stvarati brojne realistične pokrete, izraze lica, izražavati širok spektar emocija i tako odavati dojam da je riječ o stvarnoj snimci.

U testiranjima je pokazano da ova tehnika modeliranja značajno nadmašuje sve dosadašnje, a u to se možete i sami uvjeriti u kratkim isječcima, koje su podijelili na svojim stranicama.

Iz Microsofta kažu da sustav već sada ima mogućnost stvarati video veličine 512x512 piksela pri 40 fps-a, sa zanemarivom latencijom. To otvara put ka modelima koji bi generirali video lica u stvarnom vremenu, što pak može poslužiti za kreiranje avatara, koji bi simulirali ljudska lica u razgovoru (primjerice, kod VR sučelja).

U primjerima vidimo kako model može uzeti i neke generalne smjernice pa im prilagoditi rezultate – npr, može mu se zadati općenito raspoloženje osobe čije se lice emulira, smjer u kojem će gledati i slično. Nadalje, umjesto fotografija, kao početni se korak može zadati i ilustracija ili umjetničko djelo, pa su za potrebe istraživanja stručnjaci uspjeli "oživjeti" i Mona Lisu.

Istraživači naglašavaju da još uvijek ovako sintetizirani sadržaji imaju određene artefakte, koji se mogu identificirati, odnosno da ima još posla na tome da generirani video sadržaji poput ovih postanu potpuno nerazlučivi od stvarnih. Ipak, potencijal za zloupotrebe i sada je prevelik, pa modeli ostaju nedostupnima do daljnjega – online demo, API, finalni proizvod ili bilo kakvi dodatni detalji neće biti objavljeni.