Umjetna inteligencija

Amazonov računalni govor istovjetan ljudskome

Igor Berecki nedjelja, 18. veljače 2024. u 17:00

Novi model Amazonove umjetne inteligencije samostalno je razvio jezične sposobnosti za koje nije bio unaprijed treniran, a koje su usporedive s razinom izvornih govornika

Ako do sada niste koristili opciju text-to-speech koja vam sintetiziranim glasovima digitaliziranih spikera čita tekst kojega upravo gledate, poslušajte kako to zvuči... A potom - tek radi usporedbe - u ovom članku pronađite link na primjere u kojima tekstove "čita" AI-program uvježban na deep-learning algoritmima. Naime, u znanstvenom članku objavljenom početkom proteklog tjedna na istraživačkoj platformi „arXiv“ njujorškog Sveučilišta Cornell, istraživački tim Amazon AGI je objavio rezultate svojeg rada na novom velikom jezičnom modelu (LLM) za kojega navode kako posjeduje novu, „vrhunsku razinu kvalitete“ na području govorne reprodukcije pisanog teksta.

NAI, WAI, AGI i superinteligencija

Amazon AGI je ambiciozan projekt iz čijega se naziva može iščitati pokušaj dosizanja još uvijek teorijske razine umjetne inteligencije: „AGI“ je skraćenica za „Artificial General Intelligence“, višu razinu strojne inteligencije koja je po svojim sposobnostima usporediva s ljudskom (o razinama umjetne inteligencije pročitajte u zasebnom okviru uz tekst).

Ako je suditi prema primjerima navedenim kao ilustracija postignutih rezultata, ovaj jezični model se zaista čini vrlo uspješnim u procesuiranju text-to-voice zadaća, odnosno u „čitanju“ tekstova digitaliziranim / sempliranim ljudskim glasom, baš kao što to čini i glasovni program kojim možete preslušati ovaj i druge tekstove koje čitate na Bug On Line. Nazvan Big Adaptive Streamable TTS with Emergent abilities (kraće: BASE TTS), novi Amazon AGI-jev jezični model je uvježbavan deep-learning algoritmima na 100.000 sati „govornih podataka iz javne domene“, to jest javno dostupnih audio-zapisa ljudskog govora (od kojih je oko 90 posto bilo na engleskom jeziku), kako bi ga se naučilo što vjernijoj reprodukciji čitanja izvornih govornika engleskog jezika (i to u američkoj i u britanskoj verziji).

Razine umjetne inteligencije (na temelju sposobnosti i složenosti računalnih sustava)

1. Umjetna suživotna inteligencija (Narrow AI ili Weak AI) je usko specijalizirana za određene zadatke ili probleme. Primjeri su virtualni asistenti (Siri, Cortana), ChatGPT i ostali pametni chatbotovi, programi za prepoznavanje govora, slika i lica, generativno stvaranje glazbe, ilustracija i programsko kodiranje... Ona nije „inteligentna“ izvan svojih uskih zadatka za koje je programirana. Svi trenutno dostupni AI sustavi još uvijek spadaju u suživotnu inteligenciju.
2. Opća umjetna inteligencija (Artificial General Intelligence - AGI) je teorijski, još uvijek nedosegnut koncept u kojem se sposobnosti računala mogu usporediti s ljudskom inteligencijom. U teoriji, AGI bi trebala u širokom spektru zadataka razumjeti, učiti i primjenjivati znanje bez potrebe za specifičnim programiranjem za svaku zadaću. AGI još nije postignuta (kako je već navedeno, trenutno se sva dostupna AI nalazi na razini suživotne inteligencije).
3. Superinteligencija je imaginarna, teorijska razina najnaprednije strojne inteligencije koja bi dominantno premašivala ljudsku inteligenciju na svim područjima, a mogla bi samostalno razmišljati i donositi odluke, rješavati ekstremno kompleksne probleme koji su izvan dosega ljudske inteligencije, pa i posjedovati neki oblik svijesti.

U nastojanju da procijene koliko velik bi trebao biti opseg baze podataka iz koje jezični modeli uče da bi se postigle 'napredne sposobnosti' digitaliziranog govora, programeri Amazon AGI-ja su istovremeno trenirali tri modela: „veliki model“ je uvježbavan na već navedenih 100.000 sati govornih zapisa, „srednji model“ je kao podatkovnu bazu za učenje dobio na raspolaganje 10.000 sati audio-snimki, a „mali model“ je treniran na 1.000 sati zapisa ljudskog govora, sve s ciljem da se uspoređivanjem rezultata ovoga 10:100:1000 omjera utvrdi koja je optimalna količina podataka na kojoj je potrebno uvježbavati deep-learning algoritme za postizanje što veće prirodnosti izgovora i dikcije pri „čitanju“ tekstualnog materijala.

Emocije, kontekstualna intonacija i dinamička karakterizacija

U članku se navodi i ilustrira desecima primjera kako je (nakon prethodnih treninga na ponuđenim bazama audio-zapisa) BASE TTS model pri digitaliziranoj vokalizaciji nasumično ponuđenih tekstova uspio postići – prema kriterijima lingvističkih stručnjaka uključenih u ovo istraživanje – jezički posve ispravnu i glasovno besprijekorno vjernu produkciju izgovorenih rečenica.

Osim toga, u zaključku članka se navodi kako u BASE TTS nikada nije „izričito uprogramirano“ da tijekom čitanja upotrebljava govorni ritam, glasovnu dinamiku, kontekstualnu intonaciju i emotivnu karakterizaciju govora (u što se uključuje i sposobnost razumijevanja interpunkcije, ne-engleskih riječi i emocija izraženih u napisanom tekstu). No, na nemalo iznenađenje Amazon AGI-jevog međunarodnog programerskog tima od 18 stručnjaka za umjetnu inteligenciju, BASE TTS nije tek „robotski hladno“ pročitao tekstove, nego ih je pravilno intonirao u skladu s kontekstom i sadržajem, što je do sada bilo vrlo teško postići kod programa za text-to-speech digitalizaciju. Takav način „izražajnog čitanja“ je inače prisutan samo kod izvornih govornika, ljudi koji se od rođenja koriste određenim jezikom.

Neki od tipičnih primjera audiozapisa nalaze se dostupni na stranicama Amazon | Science projekta (klik na link!), pa se možete i sami uvjeriti u kvalitetu sintetiziranog govora kojega na temelju zadanog teksta producira BASE TTS. Ne samo da je u tim primjerima vrlo teško prepoznati da je govor sintetiziran a ne ljudski, nego je dikcija zaista dobro usklađena sa značenjem i kontekstom napisanih rečenica (usporedite to s "bezličnim" digitaliziranim glasovima koji čitaju tekst ovoga članka).

Zanimljivo je i to što je najviše bodova na testu za ocjenjivanje lingvističkih kriterija kvalitete čitanja postigao srednji model, onaj koji je treniran na 10.000 sati audio-zapisa. Srednji model, premda uvježbavan na deset puta manjoj količini podataka od velikog modela, besprijekorno je izgovarao rečenice koje se ljudskim čitateljima inače čine prirodnim i normalnim, ali su dosadašnjim text-to-speech programima predstavljale nepremostivu teškoću. Primjerice, rečenice u kojima je potrebna sposobnost vokalnog transponiranja takozvanih ne-riječi („Pssst, Lidija, šššš, ne smijemo probuditi tvog malog brata“, šapnuo je Tomo dok su na prstima prolazili pokraj dječje sobe) – BASE TTS izgovara šaptanjem premda mu to nije bilo unaprijed uprogramirano u algoritam. Štoviše, pokazao je čak i prepoznavanje „internetskog govora“ kojega se danas u velikoj mjeri koristi u tekstualnim porukama i govornom jeziku (Primila je poruku: „OMG, nazovi me ASAP! Mama i tata su zabrinuti… #familymatters“ je BASE TTS pročitao koristeći pri izgovoru kolokvijalizme 'ou-em-đi' i 'ejsap', te 'hešteg').

Zacrtavanje budućih dosega umjetne inteligencije

U zaključku svojeg članka autori su napisali: „Takve rečenice sadrže izazovne zadatke pri čitanju: raščlanjivanje složenih, razgranatih i višeznačnih rečenica, pravilno frazalno naglašavanje dugačkih složenih imenica, korištenje emocionalnno obojanog ili dinamički varijabilnog govora različite glasnoće – od šaptanja do uzvika, stvaranje ispravnih fonema (pravilnog izgovora) stranih riječi poput croissant ili qi, te razumijevanje nestandardnih interpunkcijskih znakova poput "@" — pri čemu za ništa od navedenog BASE TTS nije bio izričito osposobljen ni programiran.“

Po svemu sudeći, premda joj to nije bilo izravno zadano, umjetna inteligencija je uporabila vlastitu inteligenciju da bi „sama od sebe“ shvatila što se iz konteksta zadanih rečenica zahtijeva pri njihovom izgovaranju.

Naravno, ovo ipak nije AGI u punom smislu tog izraza, ali bi ovi rezultati mogli imati značajne implikacije na traženju puta prema cilju postizanja generalne inteligencije, pogotovo ako u postupku obučavanja (deep learninga) takvih modela neće biti potrebno koristiti enormno velike skupove podataka za učenje.

Vezano

📢 Uštedi 130€

META Quest 2

339,99€ ~~469,99€~~ Kupi

📢 Uštedi 10%

Samsung monitor

116,99€ ~~129,99€~~ Kupi

📢 NOVO!

EPOCH Galaxia

899,99€ Kupi

Zadnji komentari na forumu

memulica 19. veljače 2024.

Šta nikad nisi naletio video sa računalno generiranim glasom?

memulica 19. veljače 2024.

Ajd možda se sad na yubitou bude moglo što i poslušati, jer ovo dosad je blago rečeno užas.

Zaporožac 19. veljače 2024.

Ako je već sempliran ljudski glas, bilo bi dobro kada bih mogao snimiti svako svoje rečenice snimljene preko mikrofona,pa neka AI govori npr mojim bogougodnim glasom.

jozef 19. veljače 2024.

Bolje jest od dosadašnjih TTSova, ali nije senzacionalno. I ove priče oko moguće zlouporabe su tek jadan marketing; "naš TTS je toliko dobar da smo ga morali zabraniti". Dobro da nisu rekli da ga doktori mrze...

Ajar 18. veljače 2024.

nalikuje ali ljudi ipak dišu a skupovi algoritama (ma kako to marketingaška gamad nazivala) - ne. i intonacija je napadno umjetna. no čemu sve to? ljudi zaboravili čitati i govoriti? ili kir janja pohlepno gleda kako bi ne platio žive, ljudske glasove?

Ronis Hi-Fi slušaonica na Velesajmu.

Rezervirajte svoj termin!

Želite doživjeti zvuk visoke kvalitete? Pridružite nam se u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Novi dodatak nagradivanoj obitelji LSX.

Bežični Hi-Fi zvučnici KEF LSX II LT

Dizajniran kao pojednostavljena verzija, LSX II LT dijeli isti High-Fidelity zvuk i kljucne tehnologije kao LSX II, po cijeni koja ce vam se svidjeti.

999 € Kupi

Za zahtjevne ljubitelje glazbe.

Stereo pojačalo ROKSAN K3

Snaga od 140 W (RMS) po kanalu (na 8 Ohma) i vrhunski cvrst i kontroliran bas pružaju široku detaljnu pozornicu zvuka za istinsko glazbeno iskustvo. Za optimalnu kvalitetu zvuka i pouzdanost koriste se visokokvalitetne komponente, tiskane plocice i transformatori.

1.449 € ~~1.563 €~~ Akcija

Snažan zvuk iz elegantnog kućišta.

Zvučnici ACOUSTIC ENERGY AE120²

3-smjerni floorstander, impedancija 6 ohma, osjetlivost 90dB, frekvencijski odziv: 39Hz - 26kHz, snaga pojačala: 200W, peak SPL: 116dB

956 € ~~1.062 €~~ Kupi

Doživite analognu glazbu kao nikada prije.

Gramofon CROSLEY C6 matt crni

Gramofon s 2 brzine, 7", 10" i 12" ploča, remenski pogon, RCA out, Bluetooth out, anti-skate prilagodba.

229 € ~~249 €~~ Akcija

High-end performanse u kompaktnom dizajnu.

Stereo pojačalo PARASOUND HINT 6

2 x 160 W 8 Ohma. Burr Brown analog resistor ladder volume control. Dimmable front panel volume display. Updated USB receiver is Plug and play with Windows 10 and MAC.

3.999 € ~~4.999 €~~ Akcija

Aktivni subwoofer s jednostavnim podešavanjem.

Subwoofer ACOUSTIC ENERGY AE108²

Snaga: 150W, frekvencijski raspon: 30Hz - 110kHz, sealed box, Peak SPL: 105dB

539 € ~~599 €~~ Akcija

Poboljšana disperzija i veća snaga.

Zvučnici ACOUSTIC ENERGY AE300

2-sistemski zvucnici sa 130mm mid-bass jedinicama drivera, novim keramickim aluminijskim sandwich konusom i 28mm aluminijskim visokotoncem, frekvencijski raspon 45Hz -30kHz, osjetljivost 86 dB, vršni SPL 112dB, snaga 100W, crossover frekvencija 2.8kHz, impedancija 6 ohma.

719 € ~~799 €~~ Akcija

Uživajte u glazbi visoke rezolucije.

Stereo / Mrežni Receiver YAMAHA R-N600A

snaga: 80 W+80W (8 ohma), 60W+60W (4 ohma), Pure Direct Mode, Airplay, Wi-Fi, Bluetooth, Ethernet, phono input, headphone out

789 € Kupi

San svakog audiofila.

Slušalice SENNHEISER HD 650

Max SPL: 103 dB na 1kHz/1 Vrms, THD: 0,05%, Impedancija: 300 ohm, Frekvencijski odaziv: 10 Hz - 39kHz, 6,35 mm TRS + 3,5 mm adapter

499 € Kupi

Pametni i kompaktni soundbar.

Soundbar SONOS BEAM Gen 2 crni

Osjetite zvuk oko sebe uz prostrano 3D iskustvo Dolby Atmosa. Beznaporni setup s samo dva kabla i pametno Trueplay™ podešavanje

589 € Kupi

Svestran High-end Hi-Fi DAC

D/A pretvarač i pretpojačalo TANGENT DAC II

Sabre ES9023 24-bitni stereo audio DAC. Nudi višestruke digitalne ulaze ukljucujuci koaksijalni, opticki digitalni i USB, kao i AptX Bluetooth tehnologiju za streaming visoke kvalitete. Idealan kao pretpojacalo, može takoder funkcionirati kao pojacalo za slušalice.

279 € NOVO

Novosti iz naše Hi-Fi slušaonice

Silence Alpha TT-1

Silence Alpha TT-1 je hrvatski proizvod, i to jedan od onih uz koje se morate naviknuti na pomisao da hrvatski proizvodi izgledaju totalno svjetski.

Kupi