Izgubljeni u prijevodu: Japan hitno gradi vlastitu verziju ChatGPT-a

Sustavi umjetne inteligencije obučeni na stranim jezicima jednostavno ne mogu shvatiti svu zamršenost japanskog jezika i kulture

Mladen Smrekar petak, 15. rujna 2023. u 12:34

Da bi dobili vlastiti LLM, Japanci su odlučili iskoristiti svoje superračunalo Fugaku, jedno od najbržih na svijetu koje se uglavnom obučava na unosu na japanskom jeziku FUJITSU

Japanska vlada i tamošnje velike tehnološke tvrtke kao što su NEC, Fujitsu i SoftBank ulažu stotine milijuna dolara u stvaranje UI sustava koji će se temeljiti na velikim jezičnim modelima (LLM) na japanskom jeziku, umjesto da se koristi prijevodima engleske verzije.

"Trenutni javni LLM-ovi, poput GPT-a, izvrsni su u engleskom, ali često ne uspijevaju u japanskom zbog razlika u abecednom sustavu, ograničenih podataka i drugih faktora", objašnjava Keisuke Sakaguchi sa Sveučilištu Tohoku u časopisu Nature.

Engleska pristranost

LLM obično koriste ogromne količine podataka iz javno dostupnih izvora kako bi naučili obrasce prirodnog govora i proze. Oni se obučavaju predviđati sljedeću riječ na temelju prethodnih riječi u tekstu. Velika većina teksta na kojem se trenirao ChatGPT-ov prethodni model, GPT-3, bila je na engleskom jeziku.

Sustav rangiranja Rakuda procjenjuje koliko dobro LLM-i mogu odgovoriti na otvorena pitanja o japanskim temama 📷 Rakuda — Sustav rangiranja Rakuda procjenjuje koliko dobro LLM-i mogu odgovoriti na otvorena pitanja o japanskim temama Rakuda

Japanci strahuju da sustavi umjetne inteligencije obučeni na skupovima podataka na drugim jezicima ne mogu shvatiti zamršenost japanskog jezika i kulture. Struktura rečenica u japanskom potpuno je drugačija od engleske. ChatGPT stoga mora prevesti japanski upit na engleski, pronaći odgovor i zatim taj odgovor prevesti natrag na japanski.

Zaplitanje jezika

No, dok engleski koristi samo 26 slova, pisani japanski sastoji se od dva skupa po 48 osnovnih znakova, plus 2136 kineskih znakova koji se redovito koriste, odnosno kanji. Većina kanjija ima dva ili više izgovora, a postoji još oko 50.000 rijetko korištenih kanjija. S obzirom na tu složenost, ne čudi da se ChatGPT-u može zaplesti jezik i da se umjetna inteligencija izgubi u prijevodu.

Dok engleski koristi samo 26 slova, pisani japanski sastoji se od dva skupa po 48 osnovnih znakova, plus 2136 kineskih znakova koji se redovito koriste i još oko 50.000 onih rijetko korištenih 📷 kjpargeter — Dok engleski koristi samo 26 slova, pisani japanski sastoji se od dva skupa po 48 osnovnih znakova, plus 2136 kineskih znakova koji se redovito koriste i još oko 50.000 onih rijetko korištenih kjpargeter

Na japanskom, ChatGPT "ponekad generira iznimno rijetke znakove koje većina ljudi nije vidjela, a rezultat su čudne nepoznate riječi", kaže Sakaguchi.

Kulturne norme

Da bi LLM bio koristan, pa čak i komercijalno održiv, mora točno odražavati kulturne prakse, kao i jezik. Ako se od ChatGPT-a zatraži da napiše e-poruku za prijavu za posao na japanskom, na primjer, može izostaviti standardne izraze pristojnosti i izgledati kao očigledan prijevod s engleskog.

Kako bi procijenili koliko su LLM-i osjetljivi na japansku kulturu, skupina istraživača pokrenula je Rakudu, sustav rangiranja koji procjenjuje koliko dobro LLM-i mogu odgovoriti na otvorena pitanja o japanskim temama. Usporedba fluidnosti i kulturološke prikladnosti odgovora na standardne upite pokazala je da su japanski LLM-i sve bolji, ali i da daleko zaostaju za GPT-4. Ovaj problem nije tehnički nepremostiv; potrebni su resursi.

Japanci su odlučili iskoristiti svoje superračunalo Fugaku, jedno od najbržih na svijetu, koje se uglavnom obučava na unosu na japanskom jeziku. U projektu sudjeluju Tokijski institut za tehnologiju, Sveučilište Tohoku, Fujitsu i državnim novcem financirana grupacija istraživačkih centara RIKEN. Istraživači se nadaju da će mu dati najmanje 30 milijardi parametara, a rezultat se očekuje sljedeće godine. Bit će to još jedan LLM otvorenog koda, stavljen na raspolaganje svim korisnicima.

Fugaku nije jedini

Međutim, Fugaku LLM bi ubrzo mogao dobiti još većeg nasljednika. Japansko Ministarstvo obrazovanja, kulture, sporta, znanosti i tehnologije financira UI program prilagođen znanstvenim potrebama koji će generirati znanstvene hipoteze učeći iz objavljenih istraživanja, ubrzavajući identifikaciju ciljeva za ispitivanje. Model bi mogao započeti sa 100 milijardi parametara, što bi bilo nešto više od polovice veličine GPT-3, a s vremenom bi se proširivao.

NEC već koristi koristiti vlastitu generativnu umjetnu inteligenciju temeljenu na japanskom jeziku i korisnicima nudi prilagodljive generativne UI usluge 📷 NEC — NEC već koristi koristiti vlastitu generativnu umjetnu inteligenciju temeljenu na japanskom jeziku i korisnicima nudi prilagodljive generativne UI usluge NEC

Druge japanske tvrtke već komercijaliziraju ili planiraju komercijalizirati vlastite LLM tehnologije. Proizvođač superračunala NEC počeo je u svibnju koristiti vlastitu generativnu umjetnu inteligenciju temeljenu na japanskom jeziku koja vrijeme potrebno za izradu internih izvješća smanjuje za 50%, a izvornog koda internog softvera za 80%. Japanska telekomunikacijska tvrtka SoftBank svoj LLM planira pokrenuti sljedeće godine.

Vezano

📢 Uštedi 130€

META Quest 2

339,99€ ~~469,99€~~ Kupi

📢 Uštedi 10%

Samsung monitor

116,99€ ~~129,99€~~ Kupi

📢 NOVO!

EPOCH Galaxia

899,99€ Kupi

Zadnji komentari na forumu

ddnevic 15. rujna 2023.

Jedino sto Japancima treba je malo dodatnog treninga gramatike i socijalnih normi. Postojeci modeli se lako istreniraju za to. Zapravo LLM-ovi ne "pamte" rijeci kao grupe slova, vec kao vektore, duge po nekoliko tisuca koeficijenata, koji omogucavaju obradu teksta, slike i zvuka po znacenju.

Ronis Hi-Fi slušaonica na Velesajmu.

Rezervirajte svoj termin!

Želite doživjeti zvuk visoke kvalitete? Pridružite nam se u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Svestrani high-end Hi-Fi DAC.

TANGENT DAC II D/A pretvarač i pretpojačalo

Bluetooth 5.0 APTX Hd Sabre, Stereo Audio DAC, USB: 192kHz / 32-bit PCM (Stereo) – podržava DSD audio, 64/128/256/512, Opticki ulaz: 192kHz / 24-bit, Opticki izlaz: 192kHz / 24-bit

279 € Best Buy

Throw-back na ranije JBL receivere.

JBL SA750 integrirano pojačalo

Frekvencijski odziv 20Hz – 20kHz ± 1dB, nominalna osjetljivost: 1V, impedancija ulaza: 10kΩ, snaga izlaza na oba kanala pogonjena: 120W na 8Ω, 220W na 4Ω

2.499 € ~~2.999 €~~ Akcija

Za audio šmekere.

ACOUSTIC ENERGY AE109² zvučnici (par)

2.5-smjerni samostojeci zvucnik, frekvencijski raspon: 41Hz - 26kHz, crosssover frekvencija: : 275Hz, 2.5kHz, impedancija: 6 ohma, osjetljivost: 89dB, Peak SPL: 115dB, maksimalna snaga: 175W

692 € ~~769 €~~ Akcija

Kućno kino na samo dva zvučnika.

MARANTZ Stereo 70s receiver

75W po kanalu, 8K HDMI, dvostruki izlazi za subwoofer, HEOS® Built-in Multi-Room Streaming,

989 € Kupi

High-end performanse u kompaktnom dizajnu.

Stereo pojačalo PARASOUND HINT 6

2 x 160 W 8 Ohma. Burr Brown analog resistor ladder volume control. Dimmable front panel volume display. Updated USB receiver is Plug and play with Windows 10 and MAC.

3.999 € ~~4.999 €~~ Akcija

Aktivni subwoofer s jednostavnim podešavanjem.

Subwoofer ACOUSTIC ENERGY AE108²

Snaga: 150W, frekvencijski raspon: 30Hz - 110kHz, sealed box, Peak SPL: 105dB

539 € ~~599 €~~ Akcija

Poboljšana disperzija i veća snaga.

Zvučnici ACOUSTIC ENERGY AE300

2-sistemski zvucnici sa 130mm mid-bass jedinicama drivera, novim keramickim aluminijskim sandwich konusom i 28mm aluminijskim visokotoncem, frekvencijski raspon 45Hz -30kHz, osjetljivost 86 dB, vršni SPL 112dB, snaga 100W, crossover frekvencija 2.8kHz, impedancija 6 ohma.

719 € ~~799 €~~ Akcija

Best buy 8K receiver.

DENON AVR-X2800H AV receiver

7-kanalno pojačalo, 150 W po kanalu, 8K video, HEOS ugrađena tehnologija, Dolby Atmos® i DTS:X®, plus Dolby Surround i DTS Neural:X

799 € Kupi

San svakog audiofila.

Slušalice SENNHEISER HD 650

Max SPL: 103 dB na 1kHz/1 Vrms, THD: 0,05%, Impedancija: 300 ohm, Frekvencijski odaziv: 10 Hz - 39kHz, 6,35 mm TRS + 3,5 mm adapter

499 € Kupi

Idealan subwoofer za moderan dom.

BLUESOUND NODE streamer

Bluesound NODE otkljucava svijet hi-res streaming glazbe i multiroom zvuka kako bi stvorio moderan dodatak postojecim HiFi sustavima ili vašem omiljenom setu zvucnika s napajanjem.

650 € Best buy

Sinkronizirani light show

JBL PARTYBOX 110 party zvučnik

160W, Bluetooth, USB, baterija 12h, Plug-n-play ulazi za mikrofon i instrument, mogucnost povezivanja 2 zvucnika, opcija reprodukcije s više izvora

349 € ~~366 €~~ Akcija

Novosti iz naše Hi-Fi slušaonice

Silence Alpha TT-1

Silence Alpha TT-1 je hrvatski proizvod, i to jedan od onih uz koje se morate naviknuti na pomisao da hrvatski proizvodi izgledaju totalno svjetski.

Kupi

Preporučamo

Konferencije

održava se 6. i 7. lipnja

Predstavljamo kompletan program .debuga 2024, najvećeg developerskog spektakla u regiji

debug.hr ponedjeljak

Premium

Tema broja

Dome, pametni dome: ultimativni vodič

Davor Šuštić 30. travnja 2024.

Trenutno najpovoljnije cijene na tržištu

Vezano

Umjetna inteligencija

Hinjeno suosjećanje, iskreno manipuliranje

Suosjećajnost umjetne inteligencije

Igor Berecki 1. svibnja 2024. 3

Istraživanja

Indeks umjetne inteligencije 2024.

AI pobjeđuje ljude u osnovnim zadacima i zato nam trebaju nova mjerila

Mladen Smrekar 18. travnja 2024. 26

Istraživanja

MEGAVERSE

Usporedna analiza velikih jezičnih modela

Mladen Smrekar 15. travnja 2024. 1

Umjetna inteligencija

simulacije

Holodeck, sustav za generiranje interaktivnih 3D okruženja

Mladen Smrekar 14. travnja 2024.

Istraživanja

online doktori

Previše dokaza zbunjuje velike jezične modele

Mladen Smrekar 6. travnja 2024. 6

Tehnologije

otrovni podaci

ToxicChat otkriva toksične upite u razgovoru s 'chatbotom'

Mladen Smrekar 5. ožujka 2024.