Umjetna inteligencija koja komunicira onomatopejama

Nadahnut mehanikom ljudskog vokalnog trakta, novi AI model može proizvesti i razumjeti vokalne imitacije svakodnevnih zvukova

Mladen Smrekar četvrtak, 9. siječnja 2025. u 16:19
Model učinkovito preuzima zvukove iz svijeta i generira njihove imitacije 📷 Freepik
Model učinkovito preuzima zvukove iz svijeta i generira njihove imitacije Freepik

Kad ostanete bez pravih riječi, oponašanje zvukova glasom može biti koristan način prenošenja informacija. Vokalna imitacija je zvučni ekvivalent crtanja skica kako biste prenijeli nešto što ste vidjeli, samo što umjesto olovke sad koristite vokalni trakt za izražavanje zvuka. Na tom tragu istraživači MIT-ovog Laboratorija za računalnu znanost i umjetnu inteligenciju CSAIL razvili su AI sustav koji se služi onomatopejama, i to bez ikakve obuke, da nikad nije "čuo" dojam ljudskog glasa.

Simulacije vokalnog trakta

Njihov sustav za proizvodnju i interpretaciju zvukova, detaljno opisan na arXivu, temelji se na modelu ljudskog vokalnog trakta koji simulira način na koji grlo, jezik i usne oblikuju vibracije. Kognitivno inspiriran AI algoritam kontrolira model vokalnog trakta i proizvodi imitacije zvukova nalik onima koje ispuštaju ljudi.

Model učinkovito preuzima zvukove iz svijeta i generira njihovu imitaciju, uključujući zvukove poput šuštanja lišća, siktanja zmije i približavanja sirene hitne pomoći. Njihov model funkcionira i obrnutim redom pa pogađa zvukove stvarnog svijeta iz ljudskih glasovnih imitacija, slično kao što neki sustavi računalnog vida mogu dohvatiti visokokvalitetne slike na temelju skica. Na primjer, model može ispravno razlikovati zvuk ljudskog oponašanja mačjeg mijaukanja i siktanja.

Intuitivna sučelja

Ovaj bi model mogao dovesti do intuitivnijih sučelja temeljenih na imitaciji i iskoristiti u dizajnu zvukova, izradi AI likova u virtualnoj stvarnosti sličnijih ljudima pa čak i razvoju metoda učenja novih jezika.

Zvuk motornog čamca pretežno je glasna širokopojasna buka vode, dobro usklađena sa "ssh". Međutim, govornik koji oponaša motorni čamac oponašat će tutnjavu motora jer će to slušatelju biti jasnije; "shh" bi se moglo zamijeniti s vjetrom 📷 Caren, Chandra, Tenenbaum, Ragan-Kelley i Ma
Zvuk motornog čamca pretežno je glasna širokopojasna buka vode, dobro usklađena sa "ssh". Međutim, govornik koji oponaša motorni čamac oponašat će tutnjavu motora jer će to slušatelju biti jasnije; "shh" bi se moglo zamijeniti s vjetrom Caren, Chandra, Tenenbaum, Ragan-Kelley i Ma

No, isto tako, priznaju njegovi tvorci, ovaj model nije savršen i još uvijek se bori se s nekim suglasnicima kao što je "z", zbog čega teško oponaša zujanja pčela i ne može replicirati govor, glazbu ili zvukove koji se različito oponašaju u različitim jezicima, poput otkucaja srca. Jezik je ionako pun onomatopeja i riječi koje vjerno ne prenose nego samo oponašaju ono što opisuju, poput zvuka "mijau" koji na svim jezicima vrlo netočno odgovara zvuku koji proizvode mačke.