Izgubljeni u prijevodu: Japan hitno gradi vlastitu verziju ChatGPT-a

Sustavi umjetne inteligencije obučeni na stranim jezicima jednostavno ne mogu shvatiti svu zamršenost japanskog jezika i kulture

Mladen Smrekar petak, 15. rujna 2023. u 12:34
Da bi dobili vlastiti LLM, Japanci su odlučili iskoristiti svoje superračunalo Fugaku, jedno od najbržih na svijetu koje se uglavnom obučava na unosu na japanskom jeziku 📷 FUJITSU
Da bi dobili vlastiti LLM, Japanci su odlučili iskoristiti svoje superračunalo Fugaku, jedno od najbržih na svijetu koje se uglavnom obučava na unosu na japanskom jeziku FUJITSU

Japanska vlada i tamošnje velike tehnološke tvrtke kao što su NEC, Fujitsu i SoftBank ulažu stotine milijuna dolara u stvaranje UI sustava koji će se temeljiti na velikim jezičnim modelima (LLM) na japanskom jeziku, umjesto da se koristi prijevodima engleske verzije.

"Trenutni javni LLM-ovi, poput GPT-a, izvrsni su u engleskom, ali često ne uspijevaju u japanskom zbog razlika u abecednom sustavu, ograničenih podataka i drugih faktora", objašnjava Keisuke Sakaguchi sa Sveučilištu Tohoku u časopisu Nature.

Engleska pristranost

LLM obično koriste ogromne količine podataka iz javno dostupnih izvora kako bi naučili obrasce prirodnog govora i proze. Oni se obučavaju predviđati sljedeću riječ na temelju prethodnih riječi u tekstu. Velika većina teksta na kojem se trenirao ChatGPT-ov prethodni model, GPT-3, bila je na engleskom jeziku.

Sustav rangiranja Rakuda procjenjuje koliko dobro LLM-i mogu odgovoriti na otvorena pitanja o japanskim temama 📷 Rakuda
Sustav rangiranja Rakuda procjenjuje koliko dobro LLM-i mogu odgovoriti na otvorena pitanja o japanskim temama Rakuda

Japanci strahuju da sustavi umjetne inteligencije obučeni na skupovima podataka na drugim jezicima ne mogu shvatiti zamršenost japanskog jezika i kulture. Struktura rečenica u japanskom potpuno je drugačija od engleske. ChatGPT stoga mora prevesti japanski upit na engleski, pronaći odgovor i zatim taj odgovor prevesti natrag na japanski.


Zaplitanje jezika

No, dok engleski koristi samo 26 slova, pisani japanski sastoji se od dva skupa po 48 osnovnih znakova, plus 2136 kineskih znakova koji se redovito koriste, odnosno kanji. Većina kanjija ima dva ili više izgovora, a postoji još oko 50.000 rijetko korištenih kanjija. S obzirom na tu složenost, ne čudi da se ChatGPT-u može zaplesti jezik i da se umjetna inteligencija izgubi u prijevodu.

Dok engleski koristi samo 26 slova, pisani japanski sastoji se od dva skupa po 48 osnovnih znakova, plus 2136 kineskih znakova koji se redovito koriste i još oko 50.000 onih rijetko korištenih 📷 kjpargeter
Dok engleski koristi samo 26 slova, pisani japanski sastoji se od dva skupa po 48 osnovnih znakova, plus 2136 kineskih znakova koji se redovito koriste i još oko 50.000 onih rijetko korištenih kjpargeter

Na japanskom, ChatGPT "ponekad generira iznimno rijetke znakove koje većina ljudi nije vidjela, a rezultat su čudne nepoznate riječi", kaže Sakaguchi.


Kulturne norme

Da bi LLM bio koristan, pa čak i komercijalno održiv, mora točno odražavati kulturne prakse, kao i jezik. Ako se od ChatGPT-a zatraži da napiše e-poruku za prijavu za posao na japanskom, na primjer, može izostaviti standardne izraze pristojnosti i izgledati kao očigledan prijevod s engleskog.

Kako bi procijenili koliko su LLM-i osjetljivi na japansku kulturu, skupina istraživača pokrenula je Rakudu, sustav rangiranja koji procjenjuje koliko dobro LLM-i mogu odgovoriti na otvorena pitanja o japanskim temama. Usporedba fluidnosti i kulturološke prikladnosti odgovora na standardne upite pokazala je da su  japanski LLM-i sve bolji, ali i da daleko zaostaju za GPT-4. Ovaj problem nije tehnički nepremostiv; potrebni su resursi. 

Japanci su odlučili iskoristiti svoje superračunalo Fugaku, jedno od najbržih na svijetu, koje se uglavnom obučava na unosu na japanskom jeziku. U projektu sudjeluju Tokijski institut za tehnologiju, Sveučilište Tohoku, Fujitsu i državnim novcem financirana grupacija istraživačkih centara RIKEN. Istraživači se nadaju da će mu dati najmanje 30 milijardi parametara, a rezultat se očekuje sljedeće godine. Bit će to još jedan LLM otvorenog koda, stavljen na raspolaganje svim korisnicima. 

Fugaku nije jedini

Međutim, Fugaku LLM bi ubrzo mogao dobiti još većeg nasljednika. Japansko Ministarstvo obrazovanja, kulture, sporta, znanosti i tehnologije financira UI program prilagođen znanstvenim potrebama koji će generirati znanstvene hipoteze učeći iz objavljenih istraživanja, ubrzavajući identifikaciju ciljeva za ispitivanje. Model bi mogao započeti sa 100 milijardi parametara, što bi bilo nešto više od polovice veličine GPT-3, a s vremenom bi se proširivao.

NEC već koristi koristiti vlastitu generativnu umjetnu inteligenciju temeljenu na japanskom jeziku i korisnicima nudi prilagodljive generativne UI usluge 📷 NEC
NEC već koristi koristiti vlastitu generativnu umjetnu inteligenciju temeljenu na japanskom jeziku i korisnicima nudi prilagodljive generativne UI usluge NEC

Druge japanske tvrtke već komercijaliziraju ili planiraju komercijalizirati vlastite LLM tehnologije. Proizvođač superračunala NEC počeo je u svibnju koristiti vlastitu generativnu umjetnu inteligenciju temeljenu na japanskom jeziku koja vrijeme potrebno za izradu internih izvješća smanjuje za 50%, a izvornog koda internog softvera za 80%. Japanska telekomunikacijska tvrtka SoftBank svoj LLM planira pokrenuti sljedeće godine.