Veliki jezični modeli izmišljaju riječi i padaju na logičkim testovima

Engleski je prvi jezik umjetne inteligencije i to ima velike implikacije na nove tehnologije i ljude koji ih koriste

Mladen Smrekar nedjelja, 10. rujna 2023. u 08:15
Šest milijardi izvornih govornika više od 7000 različitih svjetskih jezika u opasnosti je da budu izostavljeni i minorizirani 📷 freepik
Šest milijardi izvornih govornika više od 7000 različitih svjetskih jezika u opasnosti je da budu izostavljeni i minorizirani freepik

Ogromna većina današnjih generativnih UI alata izgrađena je na velikim jezičnim modelima (LLM) obučenim na tekstovima i podacima na engleskom i kineskom jeziku. A to šest milijardi izvornih govornika više od 7000 drugih svjetskih jezika dovodi u opasnosti da budu izostavljeni i minorizirani u svijetu u kojem nove tehnologije ubrzano preoblikuju naša radna mjesta, načine poslovanja i obrazovanje, ali i umjetnost i još mnogo toga.

Favoriziranje engleskog

Većina podataka koji se koriste za obuku temeljnih modela koji potiču trenutni val umjetne inteligencije prikupljena je i obrađena na engleskom, a UI alati koje podržavaju najbolje rade kada se pitanja postavljaju na tom jeziku. 

Rest of World je testirao ChatGPT na bengalskom, kurdskom i tamilskom jeziku: pao je na svim ispitima 📷 Rest of World
Rest of World je testirao ChatGPT na bengalskom, kurdskom i tamilskom jeziku: pao je na svim ispitima Rest of World

Kad je u srpnju objavila svoj ažurirani LLM model, Meta je upozorila da "možda neće biti prikladan za korištenje na drugim jezicima" jer je većina podataka o obuci za model na engleskom. GPT-4 hvali se engleskim, španjolskim, talijanskim, indonezijskim i drugim jezicima koji se temelje na latiničnom pismu, ali se muči s tajlandskim, pandžapskim i drugim jezicima koji se temelje na različitim alfabetima. Baiduov Ernie Bot najbolji je s kineskim, na kojem je i treniran, piše Axios.

Izgubljeni u prijevodu

ChatGPT može prilično dobro prevesti upite i odgovore na engleski, ali često ima problema s prevođenjem engleskog na druge jezike. Jezici poput francuskog i kineskog, koji su poznati kao jezici s "visokim resursima" i dobro su zastupljeni u podacima o obuci, prevode se na engleski puno bolje od javanskog i drugih jezika sa "slabim resursima".

BLOOM: BigScience Large Open-science Open-access je višejezični model temeljen na transformatoru na kojem je radilo više od 1000 istraživača umjetne inteligencije  📷 BLOOM
BLOOM: BigScience Large Open-science Open-access je višejezični model temeljen na transformatoru na kojem je radilo više od 1000 istraživača umjetne inteligencije BLOOM

Suočen s mnogim nedovoljno zastupljenim jezicima, ChatGPT se bori sa sintaksom, izmišlja riječi i stvara besmislice, upozorava Andrew Deck za Rest of World koji je testirao mogućnosti besplatne verzije chatbota objavljenog krajem prošle godine. Novija verzija pokazuje blagi napredak s nekim jezicima za jednostavne upite, ali se i dalje bori s kompliciranijim zahtjevima.

Projekt Aya

Neki programeri pokušavaju prevladati te jezične nedostatke izradom višejezičnih LLM-ova, drugi pak modele pokušavaju prilagoditi određenom jeziku. Cohereov Projekt Aya otvoreni je znanstveni projekt za izradu modela umjetne inteligencije usklađenog s uputama na 100 jezika, umjesto fokusiranja na temeljni model obučen na nestrukturiranom tekstu.

Aya bi se trebala pojaviti početkom sljedeće godine, a slijedi druge modele otvorenog koda, uključujući BLOOM koji generira tekst na 46 jezika. Inception iz Ujedinjenih Arapskih Emirata nedavno je objavio Jais, a zaklada Masakhane radi na UI sustavima koji obuhvaćaju afričke jezike.

LINCE Zero, španjolski LLM koji pokušava razlikovati različite nijanse jezika s brojnim dijalektima 📷 CliBrAIn
LINCE Zero, španjolski LLM koji pokušava razlikovati različite nijanse jezika s brojnim dijalektima CliBrAIn

Madridski startup CliBrAIn u srpnju je objavio LINCE Zero koji pokušava razlikovati nijanse španjolskog jezika s brojnim dijalektima i varijacijama govora u 20 zemalja diljem svijeta. Barcelonski Superračunalni centar objavio je pak Ǎguilu, LLM baziran na kastiljskom i katalonskom. 

Višejezični modeli

Izrada modela za svaki jezik nije baš realna. Mona Diab s Instituta za jezične tehnologije na Sveučilištu Carnegie Mellon zbog toga zagovara višejezične modele. Na primjer, model obučen na arapskom koji se govori u Tunisu, Egiptu ili Saudijskoj Arabiji možda neće sasvim odgovarati katarskom dijalektu, ali će i dalje moći odgovoriti na upit tamošnjih korisnika.

Uspoređujući nalaze korištenja različitih jezičnih modela, Diab i suradnici primjećuju da se "većina ljudi osjeća slobodnije kad se izražavaju na engleskom nego na arapskom" te da modeli s engleskim jezikom daju bolje rezultate od modela s pretežno arapskim jezikom. S druge strane, socijalno orijentirana pitanja više naginju tim jezično prilagođenim sustavima.

Sustav vrijednosti

Otvara se i pitanje čiji se sustavi vrijednosti i svjetonazori favoriziraju i nameću modelima umjetne inteligencije? Jesu li njihovi tvorci svjesni sustava vrijednosti u pojedinim zajednicama i kako se to manifestira u načinu na koji jezični model odgovara na određeni upit?

Jais je najnapredniji arapski veliki jezični model otvorenog koda 📷 Inception
Jais je najnapredniji arapski veliki jezični model otvorenog koda Inception

Rizici su dosad bili prijavljivani na jednom jeziku, ali se tehnologija implementirala po cijelom svijetu. Upravo zbog toga istraživači koji rade na projektu Aya traže uzimaju u obzir mišljenja izvornih govornika osam različitih jezika kako bi povećali sigurnost modela te smanjili pristranost i druge rizike.