Veliki jezični modeli izmišljaju riječi i padaju na logičkim testovima

Engleski je prvi jezik umjetne inteligencije i to ima velike implikacije na nove tehnologije i ljude koji ih koriste

Mladen Smrekar nedjelja, 10. rujna 2023. u 08:15

Šest milijardi izvornih govornika više od 7000 različitih svjetskih jezika u opasnosti je da budu izostavljeni i minorizirani freepik

Ogromna većina današnjih generativnih UI alata izgrađena je na velikim jezičnim modelima (LLM) obučenim na tekstovima i podacima na engleskom i kineskom jeziku. A to šest milijardi izvornih govornika više od 7000 drugih svjetskih jezika dovodi u opasnosti da budu izostavljeni i minorizirani u svijetu u kojem nove tehnologije ubrzano preoblikuju naša radna mjesta, načine poslovanja i obrazovanje, ali i umjetnost i još mnogo toga.

Favoriziranje engleskog

Većina podataka koji se koriste za obuku temeljnih modela koji potiču trenutni val umjetne inteligencije prikupljena je i obrađena na engleskom, a UI alati koje podržavaju najbolje rade kada se pitanja postavljaju na tom jeziku.

Rest of World je testirao ChatGPT na bengalskom, kurdskom i tamilskom jeziku: pao je na svim ispitima 📷 Rest of World — Rest of World je testirao ChatGPT na bengalskom, kurdskom i tamilskom jeziku: pao je na svim ispitima Rest of World

Kad je u srpnju objavila svoj ažurirani LLM model, Meta je upozorila da "možda neće biti prikladan za korištenje na drugim jezicima" jer je većina podataka o obuci za model na engleskom. GPT-4 hvali se engleskim, španjolskim, talijanskim, indonezijskim i drugim jezicima koji se temelje na latiničnom pismu, ali se muči s tajlandskim, pandžapskim i drugim jezicima koji se temelje na različitim alfabetima. Baiduov Ernie Bot najbolji je s kineskim, na kojem je i treniran, piše Axios.

Izgubljeni u prijevodu

ChatGPT može prilično dobro prevesti upite i odgovore na engleski, ali često ima problema s prevođenjem engleskog na druge jezike. Jezici poput francuskog i kineskog, koji su poznati kao jezici s "visokim resursima" i dobro su zastupljeni u podacima o obuci, prevode se na engleski puno bolje od javanskog i drugih jezika sa "slabim resursima".

BLOOM: BigScience Large Open-science Open-access je višejezični model temeljen na transformatoru na kojem je radilo više od 1000 istraživača umjetne inteligencije 📷 BLOOM — BLOOM: BigScience Large Open-science Open-access je višejezični model temeljen na transformatoru na kojem je radilo više od 1000 istraživača umjetne inteligencije BLOOM

Suočen s mnogim nedovoljno zastupljenim jezicima, ChatGPT se bori sa sintaksom, izmišlja riječi i stvara besmislice, upozorava Andrew Deck za Rest of World koji je testirao mogućnosti besplatne verzije chatbota objavljenog krajem prošle godine. Novija verzija pokazuje blagi napredak s nekim jezicima za jednostavne upite, ali se i dalje bori s kompliciranijim zahtjevima.

Projekt Aya

Neki programeri pokušavaju prevladati te jezične nedostatke izradom višejezičnih LLM-ova, drugi pak modele pokušavaju prilagoditi određenom jeziku. Cohereov Projekt Aya otvoreni je znanstveni projekt za izradu modela umjetne inteligencije usklađenog s uputama na 100 jezika, umjesto fokusiranja na temeljni model obučen na nestrukturiranom tekstu.

Aya bi se trebala pojaviti početkom sljedeće godine, a slijedi druge modele otvorenog koda, uključujući BLOOM koji generira tekst na 46 jezika. Inception iz Ujedinjenih Arapskih Emirata nedavno je objavio Jais, a zaklada Masakhane radi na UI sustavima koji obuhvaćaju afričke jezike.

LINCE Zero, španjolski LLM koji pokušava razlikovati različite nijanse jezika s brojnim dijalektima 📷 CliBrAIn — LINCE Zero, španjolski LLM koji pokušava razlikovati različite nijanse jezika s brojnim dijalektima CliBrAIn

Madridski startup CliBrAIn u srpnju je objavio LINCE Zero koji pokušava razlikovati nijanse španjolskog jezika s brojnim dijalektima i varijacijama govora u 20 zemalja diljem svijeta. Barcelonski Superračunalni centar objavio je pak Ǎguilu, LLM baziran na kastiljskom i katalonskom.

Višejezični modeli

Izrada modela za svaki jezik nije baš realna. Mona Diab s Instituta za jezične tehnologije na Sveučilištu Carnegie Mellon zbog toga zagovara višejezične modele. Na primjer, model obučen na arapskom koji se govori u Tunisu, Egiptu ili Saudijskoj Arabiji možda neće sasvim odgovarati katarskom dijalektu, ali će i dalje moći odgovoriti na upit tamošnjih korisnika.

Uspoređujući nalaze korištenja različitih jezičnih modela, Diab i suradnici primjećuju da se "većina ljudi osjeća slobodnije kad se izražavaju na engleskom nego na arapskom" te da modeli s engleskim jezikom daju bolje rezultate od modela s pretežno arapskim jezikom. S druge strane, socijalno orijentirana pitanja više naginju tim jezično prilagođenim sustavima.

Sustav vrijednosti

Otvara se i pitanje čiji se sustavi vrijednosti i svjetonazori favoriziraju i nameću modelima umjetne inteligencije? Jesu li njihovi tvorci svjesni sustava vrijednosti u pojedinim zajednicama i kako se to manifestira u načinu na koji jezični model odgovara na određeni upit?

Jais je najnapredniji arapski veliki jezični model otvorenog koda 📷 Inception — Jais je najnapredniji arapski veliki jezični model otvorenog koda Inception

Rizici su dosad bili prijavljivani na jednom jeziku, ali se tehnologija implementirala po cijelom svijetu. Upravo zbog toga istraživači koji rade na projektu Aya traže uzimaju u obzir mišljenja izvornih govornika osam različitih jezika kako bi povećali sigurnost modela te smanjili pristranost i druge rizike.

Vezano

📢 Uštedi 130€

META Quest 2

339,99€ ~~469,99€~~ Kupi

📢 Uštedi 10%

Samsung monitor

116,99€ ~~129,99€~~ Kupi

📢 NOVO!

EPOCH Galaxia

899,99€ Kupi

Zadnji komentari na forumu

qwwerty11 11. rujna 2023.

to je bio glavni stos kad su pitali britance koj je vas glavi izvozni proizvod?pa jezik rekose)))

PzKpfw 10. rujna 2023.

Hm, ....kaj vam nije jednostavnije naučiti engleski?Ne vrti se svijet oko vašega jezika. Npr. nalaziš u HR, al čim odeš izvan naše regije, nitko ne razumije. Bez obzira na progres tehnologije, učenja jezika nikada neće izumrijeti.Ovi više jezični modeli, samo su ustupak velikim kompleksim...

Ronis Hi-Fi slušaonica na Velesajmu.

Rezervirajte svoj termin!

Želite doživjeti zvuk visoke kvalitete? Pridružite nam se u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Svestrani high-end Hi-Fi DAC.

TANGENT DAC II D/A pretvarač i pretpojačalo

Bluetooth 5.0 APTX Hd Sabre, Stereo Audio DAC, USB: 192kHz / 32-bit PCM (Stereo) – podržava DSD audio, 64/128/256/512, Opticki ulaz: 192kHz / 24-bit, Opticki izlaz: 192kHz / 24-bit

279 € Best Buy

Throw-back na ranije JBL receivere.

JBL SA750 integrirano pojačalo

Frekvencijski odziv 20Hz – 20kHz ± 1dB, nominalna osjetljivost: 1V, impedancija ulaza: 10kΩ, snaga izlaza na oba kanala pogonjena: 120W na 8Ω, 220W na 4Ω

2.499 € ~~2.999 €~~ Akcija

Za audio šmekere.

ACOUSTIC ENERGY AE109² zvučnici (par)

2.5-smjerni samostojeci zvucnik, frekvencijski raspon: 41Hz - 26kHz, crosssover frekvencija: : 275Hz, 2.5kHz, impedancija: 6 ohma, osjetljivost: 89dB, Peak SPL: 115dB, maksimalna snaga: 175W

692 € ~~769 €~~ Akcija

Kućno kino na samo dva zvučnika.

MARANTZ Stereo 70s receiver

75W po kanalu, 8K HDMI, dvostruki izlazi za subwoofer, HEOS® Built-in Multi-Room Streaming,

989 € Kupi

High-end performanse u kompaktnom dizajnu.

Stereo pojačalo PARASOUND HINT 6

2 x 160 W 8 Ohma. Burr Brown analog resistor ladder volume control. Dimmable front panel volume display. Updated USB receiver is Plug and play with Windows 10 and MAC.

3.999 € ~~4.999 €~~ Akcija

Aktivni subwoofer s jednostavnim podešavanjem.

Subwoofer ACOUSTIC ENERGY AE108²

Snaga: 150W, frekvencijski raspon: 30Hz - 110kHz, sealed box, Peak SPL: 105dB

539 € ~~599 €~~ Akcija

Poboljšana disperzija i veća snaga.

Zvučnici ACOUSTIC ENERGY AE300

2-sistemski zvucnici sa 130mm mid-bass jedinicama drivera, novim keramickim aluminijskim sandwich konusom i 28mm aluminijskim visokotoncem, frekvencijski raspon 45Hz -30kHz, osjetljivost 86 dB, vršni SPL 112dB, snaga 100W, crossover frekvencija 2.8kHz, impedancija 6 ohma.

719 € ~~799 €~~ Akcija

Best buy 8K receiver.

DENON AVR-X2800H AV receiver

7-kanalno pojačalo, 150 W po kanalu, 8K video, HEOS ugrađena tehnologija, Dolby Atmos® i DTS:X®, plus Dolby Surround i DTS Neural:X

799 € Kupi

San svakog audiofila.

Slušalice SENNHEISER HD 650

Max SPL: 103 dB na 1kHz/1 Vrms, THD: 0,05%, Impedancija: 300 ohm, Frekvencijski odaziv: 10 Hz - 39kHz, 6,35 mm TRS + 3,5 mm adapter

499 € Kupi

Idealan subwoofer za moderan dom.

BLUESOUND NODE streamer

Bluesound NODE otkljucava svijet hi-res streaming glazbe i multiroom zvuka kako bi stvorio moderan dodatak postojecim HiFi sustavima ili vašem omiljenom setu zvucnika s napajanjem.

650 € Best buy

Sinkronizirani light show

JBL PARTYBOX 110 party zvučnik

160W, Bluetooth, USB, baterija 12h, Plug-n-play ulazi za mikrofon i instrument, mogucnost povezivanja 2 zvucnika, opcija reprodukcije s više izvora

349 € ~~366 €~~ Akcija

Novosti iz naše Hi-Fi slušaonice

Silence Alpha TT-1

Silence Alpha TT-1 je hrvatski proizvod, i to jedan od onih uz koje se morate naviknuti na pomisao da hrvatski proizvodi izgledaju totalno svjetski.

Kupi

Preporučamo

Konferencije

održava se 6. i 7. lipnja

Predstavljamo kompletan program .debuga 2024, najvećeg developerskog spektakla u regiji

debug.hr ponedjeljak

Premium

Tema broja

Dome, pametni dome: ultimativni vodič

Davor Šuštić 30. travnja 2024.

Trenutno najpovoljnije cijene na tržištu

Vezano

Umjetna inteligencija

pravo na zaborav

Stack Overflow masovno banira korisnike zbog pobune protiv suradnje s OpenAI-jem

Mladen Smrekar jučer 17:52 5

Pravosuđe

Treba se platiti

Američke novinske kuće tužile OpenAI i Microsoft zbog nezakonitog preuzimanja članaka

Matej Markovinović 2. svibnja 2024. 9

Umjetna inteligencija

Hinjeno suosjećanje, iskreno manipuliranje

Suosjećajnost umjetne inteligencije

Igor Berecki 1. svibnja 2024. 3

Mobiteli

Lak pristup

ChatGPT stiže na Nothingove mobitele

Matej Markovinović 19. travnja 2024.

Komentar

Kolumna – Uroboros

Ivo Špigel - Edgar Alan Altman

Ivo Špigel 19. travnja 2024.

Premium

RADAR

Promatranje Zemlje - Izrada alata u stilu ChatGPT-a

G.K. 19. travnja 2024.