Umjetna inteligencija dekodira govor iz aktivnosti mozga

Razvijena u Facebookovoj matičnoj tvrtki Meta, ova umjetna inteligencija mogla bi se jednom koristiti za pomoć ljudima koji ne mogu komunicirati govorom, tipkanjem ili gestama

Mladen Smrekar četvrtak, 15. rujna 2022. u 13:05

Umjetna inteligencija može dekodirati riječi i rečenice iz aktivnosti mozga iznenađujućom, ali još uvijek ograničenom točnošću. Koristeći samo nekoliko sekundi podataka o moždanoj aktivnosti, UI pogađa što je osoba čula i točno odgovara u 73 posto vremena, otkrili su istraživači u preliminarnoj studiji, objavljenoj na arXiv.org.

Bez rizičnih operacija

Razvijena u Facebookovoj matičnoj tvrtki Meta, ova umjetna inteligencija bi se na kraju mogla koristiti za pomoć tisućama ljudi koji ne mogu komunicirati govorom, tipkanjem ili gestama. To uključuje mnoge pacijente u minimalno svjesnim, zaključanim ili vegetativnim stanjima, danas poznatim kao sindrom neosjetljive budnosti (unresponsive wakefulness syndrome, UWS).

Većina postojećih tehnologija koje pomažu takvim pacijentima u komunikaciji zahtijevaju rizične operacije mozga za implantaciju elektroda. Ovaj novi pristup "mogao bi pružiti održiv put za pomoć pacijentima s komunikacijskim nedostacima bez upotrebe invazivnih metoda", objašnjava Metin suradnik, neuroznanstvenik Jean-Rémi King s pariške École Normale Supérieure. https://www.ens.psl.eu/ 


Skeniranje mozga

Računalni alat za otkrivanje riječi i rečenica uvježban je na 56.000 sati snimljenih govora na 53 jezika. Jezični model je naučio prepoznati specifične značajke jezika i na finoj razini slova i  slogova te na široj razini riječi i rečenica.

Pomoću magnetoencefalografije i elektroencefalografije izmjerene su magnetske i električne komponente moždanih signala
Pomoću magnetoencefalografije i elektroencefalografije izmjerene su magnetske i električne komponente moždanih signala

Sudionici istraživanja sudionici su slušali razne priče i rečenice iz djela kao što su "Starac i more" Ernesta Hemingwaya i "Alisa u zemlji čudesa" Lewisa Carrolla, a mozgovi su im skenirani pomoću magnetoencefalografije (MEG) i elektroencefalografije. Te tehnike mjere magnetsku i električnu komponentu moždanih signala.


Tri sekunde podataka

Uz pomoć računalne metode koja pomaže objasniti fizičke razlike među stvarnim mozgovima, istraživači su dekodirali ono što su sudionici čuli koristeći samo tri sekunde podataka o moždanoj aktivnosti svake osobe. Umjetna inteligencija uskladila je zvukove govora iz snimki priča s obrascima moždane aktivnosti koji odgovaraju onome što ljudi čuju. 

Koristeći MEG, točan odgovor nalazio se među deset najboljih nagađanja do 73 posto vremena, otkrili su istraživači; kod elektroencefalografije u manje od 30 posto slučajeva. Problem je u tome što je MEG trenutno glomazan i skup pa bi uvođenje ove tehnologije u klinike zahtijevalo znanstvene inovacije koje će strojeve učiniti jeftinijima i lakšima za upravljanje.

Popis točnih odgovora

Uz to, treba razumjeti i što "dekodiranje" zapravo znači u ovoj studiji, upozorava kaže Jonathan Brennan, lingvist sa Sveučilišta Michigan u Ann Arboru. Riječ se često koristi za opisivanje procesa dešifriranja informacija izravno iz izvora, u ovom slučaju govora iz aktivnosti mozga. Ali UI je to mogla učiniti samo zato što je dobila konačan popis mogućih točnih odgovora za nagađanje.

"S jezikom, to neće biti dovoljno ako se želimo prilagoditi praktičnoj upotrebi, jer je jezik beskonačan", kaže Brennan. Kako bi postao smislen komunikacijski alat, znanstvenici će morati naučiti kako iz aktivnosti mozga dešifrirati ono što ti pacijenti namjeravaju reći.