Umjetna inteligencija

Amazonov računalni govor istovjetan ljudskome

Igor Berecki nedjelja, 18. veljače 2024. u 17:00

Novi model Amazonove umjetne inteligencije samostalno je razvio jezične sposobnosti za koje nije bio unaprijed treniran, a koje su usporedive s razinom izvornih govornika

Ako do sada niste koristili opciju text-to-speech koja vam sintetiziranim glasovima digitaliziranih spikera čita tekst kojega upravo gledate, poslušajte kako to zvuči... A potom - tek radi usporedbe - u ovom članku pronađite link na primjere u kojima tekstove "čita" AI-program uvježban na deep-learning algoritmima. Naime, u znanstvenom članku objavljenom početkom proteklog tjedna na istraživačkoj platformi „arXiv“ njujorškog Sveučilišta Cornell, istraživački tim Amazon AGI je objavio rezultate svojeg rada na novom velikom jezičnom modelu (LLM) za kojega navode kako posjeduje novu, „vrhunsku razinu kvalitete“ na području govorne reprodukcije pisanog teksta.

NAI, WAI, AGI i superinteligencija

Amazon AGI je ambiciozan projekt iz čijega se naziva može iščitati pokušaj dosizanja još uvijek teorijske razine umjetne inteligencije: „AGI“ je skraćenica za „Artificial General Intelligence“, višu razinu strojne inteligencije koja je po svojim sposobnostima usporediva s ljudskom (o razinama umjetne inteligencije pročitajte u zasebnom okviru uz tekst).

Ako je suditi prema primjerima navedenim kao ilustracija postignutih rezultata, ovaj jezični model se zaista čini vrlo uspješnim u procesuiranju text-to-voice zadaća, odnosno u „čitanju“ tekstova digitaliziranim / sempliranim ljudskim glasom, baš kao što to čini i glasovni program kojim možete preslušati ovaj i druge tekstove koje čitate na Bug On Line. Nazvan Big Adaptive Streamable TTS with Emergent abilities (kraće: BASE TTS), novi Amazon AGI-jev jezični model je uvježbavan deep-learning algoritmima na 100.000 sati „govornih podataka iz javne domene“, to jest javno dostupnih audio-zapisa ljudskog govora (od kojih je oko 90 posto bilo na engleskom jeziku), kako bi ga se naučilo što vjernijoj reprodukciji čitanja izvornih govornika engleskog jezika (i to u američkoj i u britanskoj verziji).

U nastojanju da procijene koliko velik bi trebao biti opseg baze podataka iz koje jezični modeli uče da bi se postigle 'napredne sposobnosti' digitaliziranog govora, programeri Amazon AGI-ja su istovremeno trenirali tri modela: „veliki model“ je uvježbavan na već navedenih 100.000 sati govornih zapisa, „srednji model“ je kao podatkovnu bazu za učenje dobio na raspolaganje 10.000 sati audio-snimki, a „mali model“ je treniran na 1.000 sati zapisa ljudskog govora, sve s ciljem da se uspoređivanjem rezultata ovoga 10:100:1000 omjera utvrdi koja je optimalna količina podataka na kojoj je potrebno uvježbavati deep-learning algoritme za postizanje što veće prirodnosti izgovora i dikcije pri „čitanju“ tekstualnog materijala.

Emocije, kontekstualna intonacija i dinamička karakterizacija

U članku se navodi i ilustrira desecima primjera kako je (nakon prethodnih treninga na ponuđenim bazama audio-zapisa) BASE TTS model pri digitaliziranoj vokalizaciji nasumično ponuđenih tekstova uspio postići – prema kriterijima lingvističkih stručnjaka uključenih u ovo istraživanje – jezički posve ispravnu i glasovno besprijekorno vjernu produkciju izgovorenih rečenica.

Osim toga, u zaključku članka se navodi kako u BASE TTS nikada nije „izričito uprogramirano“ da tijekom čitanja upotrebljava govorni ritam, glasovnu dinamiku, kontekstualnu intonaciju i emotivnu karakterizaciju govora (u što se uključuje i sposobnost razumijevanja interpunkcije, ne-engleskih riječi i emocija izraženih u napisanom tekstu). No, na nemalo iznenađenje Amazon AGI-jevog međunarodnog programerskog tima od 18 stručnjaka za umjetnu inteligenciju, BASE TTS nije tek „robotski hladno“ pročitao tekstove, nego ih je pravilno intonirao u skladu s kontekstom i sadržajem, što je do sada bilo vrlo teško postići kod programa za text-to-speech digitalizaciju. Takav način „izražajnog čitanja“ je inače prisutan samo kod izvornih govornika, ljudi koji se od rođenja koriste određenim jezikom.

Neki od tipičnih primjera audiozapisa nalaze se dostupni na stranicama Amazon | Science projekta (klik na link!), pa se možete i sami uvjeriti u kvalitetu sintetiziranog govora kojega na temelju zadanog teksta producira BASE TTS. Ne samo da je u tim primjerima vrlo teško prepoznati da je govor sintetiziran a ne ljudski, nego je dikcija zaista dobro usklađena sa značenjem i kontekstom napisanih rečenica (usporedite to s "bezličnim" digitaliziranim glasovima koji čitaju tekst ovoga članka).

Zanimljivo je i to što je najviše bodova na testu za ocjenjivanje lingvističkih kriterija kvalitete čitanja postigao srednji model, onaj koji je treniran na 10.000 sati audio-zapisa. Srednji model, premda uvježbavan na deset puta manjoj količini podataka od velikog modela, besprijekorno je izgovarao rečenice koje se ljudskim čitateljima inače čine prirodnim i normalnim, ali su dosadašnjim text-to-speech programima predstavljale nepremostivu teškoću. Primjerice, rečenice u kojima je potrebna sposobnost vokalnog transponiranja takozvanih ne-riječi („Pssst, Lidija, šššš, ne smijemo probuditi tvog malog brata“, šapnuo je Tomo dok su na prstima prolazili pokraj dječje sobe) – BASE TTS izgovara šaptanjem premda mu to nije bilo unaprijed uprogramirano u algoritam. Štoviše, pokazao je čak i prepoznavanje „internetskog govora“ kojega se danas u velikoj mjeri koristi u tekstualnim porukama i govornom jeziku (Primila je poruku: „OMG, nazovi me ASAP! Mama i tata su zabrinuti… #familymatters“ je BASE TTS pročitao koristeći pri izgovoru kolokvijalizme 'ou-em-đi' i 'ejsap', te 'hešteg').

Zacrtavanje budućih dosega umjetne inteligencije

U zaključku svojeg članka autori su napisali: „Takve rečenice sadrže izazovne zadatke pri čitanju: raščlanjivanje složenih, razgranatih i višeznačnih rečenica, pravilno frazalno naglašavanje dugačkih složenih imenica, korištenje emocionalnno obojanog ili dinamički varijabilnog govora različite glasnoće – od šaptanja do uzvika, stvaranje ispravnih fonema (pravilnog izgovora) stranih riječi poput croissant ili qi, te razumijevanje nestandardnih interpunkcijskih znakova poput "@" — pri čemu za ništa od navedenog BASE TTS nije bio izričito osposobljen ni programiran.“

Po svemu sudeći, premda joj to nije bilo izravno zadano, umjetna inteligencija je uporabila vlastitu inteligenciju da bi „sama od sebe“ shvatila što se iz konteksta zadanih rečenica zahtijeva pri njihovom izgovaranju.

Naravno, ovo ipak nije AGI u punom smislu tog izraza, ali bi ovi rezultati mogli imati značajne implikacije na traženju puta prema cilju postizanja generalne inteligencije, pogotovo ako u postupku obučavanja (deep learninga) takvih modela neće biti potrebno koristiti enormno velike skupove podataka za učenje.