Deepfake lako zavara ljude, čak i nakon treninga

Nova studija sugerira da bi poboljšanje automatiziranih detektora moglo biti najbolja taktika za otkrivanje sintetičkih glasova

Mladen Smrekar utorak, 8. kolovoza 2023. u 09:12
Kad se deepfake pravi Englezom i Kinezom: ljudi detektiraju govorni deepfake u samo tri četvrtine slučajeva, a učinak je isti na engleskom i mandarinskom jeziku 📷 freepik
Kad se deepfake pravi Englezom i Kinezom: ljudi detektiraju govorni deepfake u samo tri četvrtine slučajeva, a učinak je isti na engleskom i mandarinskom jeziku freepik

Sintetički glasovi koje proizvode modeli strojnog učenja mogu nalikovati glasu određene stvarne osobe ili biti originalni. Alati za izradu deepfake govora toliko su poboljšani da izazivaju zabrinutost zbog sve većih sigurnosnih prijetnji. Deepfake je tako već korišten za prevaru bankara koji su nakon razgovora odobravali prijenose novca. 

Dva jezika

Otkrivanje govornih lažiranja usredotočeno je na automatizirane sustave za otkrivanje koji se temelje na strojnom učenju, no malo se studija bavilo ljudskim sposobnostima otkrivanja. Stoga su istraživači University Collegea u Londonu istražili prepoznavanje govornih deepfake uradaka u nizu audio isječaka sintetičkih i stvarnih ljudskih glasova.

Dijagram tipičnog modela generativne sinteze govora 📷 UCL
Dijagram tipičnog modela generativne sinteze govora UCL

Studija, objavljena u časopisu PLOS ONE, provedena je na engleskom i mandarinskom, a neki su sudionici dobili primjere lažnih govora kako bi im pomogli u uvježbavanju vještina otkrivanja.

Detektori bolji od ljudi

Ispitivanja su pokazala da ljudi točno identificiraju deepfakeove u 73 posto slučajeva. Obučavanje sudionika da prepoznaju izvor glasa pritom nije bilo od velike koristi. Budući da su bili svjesni činjenice da su neki od isječaka bili stvoreni umjetnim putem, ali i zato što istraživači nisu koristili najnapredniju tehnologiju sinteze govora, ljudi bi u svakodnevnom životu vjerojatno bili još lošiji od sudionika studije u razlikovanju govornika, upozoravaju istraživači.

Testiranje sposobnosti pepoznavanja sintetičkih glasova odrađeno je na engleskom i mandarinskom sa sličnim rezultatima 📷 UCL
Testiranje sposobnosti pepoznavanja sintetičkih glasova odrađeno je na engleskom i mandarinskom sa sličnim rezultatima UCL

Govornici engleskog i mandarinskog jezika pokazali su slične stope otkrivanja deepfakea, uz neke razlike u procesu detekcije. Upitani da opišu govorne značajke koje su koristili za otkrivanje, govornici engleskog najčešće su spominjali disanje, dok su govornici mandarinskog češće spominjali ritam, korak između riječi i tečnost izgovorenih rečenica.

Detektori bolji od ljudi

Ispitivanje je pokazalo još nešto: sposobnost ljudi da detektiraju lažne govornike lošija je od automatiziranih detektora najboljih performansi. Međutim, kada se izračuna prosjek, sudionici testiranja pokazali su podjednake rezultate kao automatizirani detektori jer se bolje nose s nepoznatim uvjetima za koje automatizirani detektori nisu izravno obučeni.

Slike zaslona prilikom rješavanja zadataka 📷 UCL
Slike zaslona prilikom rješavanja zadataka UCL

Lažne govornike s vremenom će biti sve teže otkriti, upozoravaju istraživači koji sugeriraju kako je obučavanje ljudi za otkrivanje lažnih govora uzaludan posao pa bi se više pažnje trebalo posvetiti poboljšanju postojećih i osmišljavanju novih automatiziranih detektora.