Usporedna analiza velikih jezičnih modela

Microsoft Research je predstavio rezultate usporedbe LLM-ova na različitim jezicima, modalitetima, modelima i zadacima

Mladen Smrekar ponedjeljak, 15. travnja 2024. u 18:26

Na jezicima s malo resursa veći komercijalni modeli kaošto su GPT-4 i Gemini-pro postižu bolje rezultate od manjih poput Gemme, Llame i Mistrala Freepik

Veliki jezični modeli (LLM) u mnogim su zadacima i mjerilima nadmašili prethodne generacije jezičnih modela, približili se ljudskim performansama, a ponekad ih čak i nadmašili. No, još uvijek nije sasvim jasno što se krije iza tih impresivnih vještina: poboljšane mogućnosti modela, kontaminacija u testnim skupovima podataka ili nedostatak skupova podataka koji točno procjenjuju njihove sposobnosti.

Značajan nesrazmjer

Većina dosadašnjih studija koje su pokušale procijeniti LLM-ove primarno su se usredotočile na engleski jezik. No, novo istraživanje Microsoft Researcha otkriva značajan nesrazmjer u LLM-ovom poznavanju engleskog jezika u usporedbi s drugim jezicima. Međutim, vrednovanje LLM-a na drugim jezicima osim engleskog predstavlja brojne izazove, uključujući nedostatak višejezičnih mjerila za zaključivanje, razgovor i dijalog u različitim jezičnim obiteljima.

Hijerarhija modela i zadataka u MEGAVERSE-u 📷 Microsoft Research — Hijerarhija modela i zadataka u MEGAVERSE-u Microsoft Research

Nalazi iz ranijih studija daju vrijedan uvid u višejezične mogućnosti LLM-a. U usporedbi s najsuvremenijim prilagođenim jezičnim modelima poput TULRv6, GPT-4 pokazuje superiornu izvedbu. No, GPT modeli pokazuju lošiju izvedbu, posebno oni dizajnirani za jezike s malo resursa i jezike pisane pismom koje nije latinično.

Rezultati za XQUAD na svim jezicima i modelima za nultu reakciju na više jezika 📷 Microsoft Research — Rezultati za XQUAD na svim jezicima i modelima za nultu reakciju na više jezika Microsoft Research

Microsoftovi istraživači proširili su pokrivenost na 22 skupa podataka i 83 jezika, uključujući mnoge afričke jezike s malo resursa, nadogradnjom na MEGA mjerilu i dodavanjem šest novih skupova podataka.

Fino podešavanje

Ovaj rad pruža vrijedne uvide programerima i istraživačima. Konkretno, pokazalo se kako veći komercijalni modeli poput GPT-4 i Gemini-pro postižu bolje rezultate od manjih poput Gemme, Llame i Mistrala na jezicima s malo resursa.

Analiza plodnosti svih modela osim PaLM2 i Gemini 📷 Microsoft Research — Analiza plodnosti svih modela osim PaLM2 i Gemini Microsoft Research

Takav obrazac postoji u većini ispitivanih skupova podataka, što ukazuje da manji modeli imaju poteškoća s višejezičnom izvedbom. Da bi se poboljšala višejezična izvedba, sugeriraju istraživači, trebat će dodatno poraditi na finom podešavanju, modelima koji se temelje na obitelji jezika i modelima specifičnima za jezik.

Multimodalni skupovi podataka

Što se tiče multimodalnih skupova podataka, pokazalo je istraživanje, GPT-4-Vision pokazao se boljim od LLaVA i Gemini-Pro-Vision, a učinkovitost jezičnog modela povezana je s plodnošću tokenizatora. Rad sugerira da je plodnost tokenizatora niža za jezike latiničnog pisma poput engleskog i španjolskog nego za morfološki komplicirane jezike poput telugua, malajskog i malajalamskog.

Pozitivni rezultati pokazuju da su trenutni LLM-ovi relativno dobri u zadacima jezičnih obitelji 📷 Microsoft Research — Pozitivni rezultati pokazuju da su trenutni LLM-ovi relativno dobri u zadacima jezičnih obitelji Microsoft Research

Zbog računskih i vremenskih ograničenja, istraživači nisu istražili kontaminaciju na svim skupovima podataka nego samo na 7B varijacijama modela otvorenog koda. Kontaminacija skupa podataka glavni je problem s usporednim studijama koje se provode na jezicima koji nisu engleski. Istraživači stoga namjeravaju poboljšati svoje kapacitete za otkrivanje kontaminacije i što bolju implementaciju zaštitnih mjera.

Vezano

📢 Uštedi 70€

Lenovo V15

529,99€ ~~599,99€~~ Kupi

📢 Uštedi 29%

Oscal C70

119,99€ ~~169,99€~~ Kupi

📢 Uštedi do 23%

Veger prijenosni punjači

Od 19,99€ Kupi

Zadnji komentari na forumu

Ajar 15. travnja 2024.

prevođenje (ne žednih preko vode) mi je posao i primijeti se kako velike i nekompetentne (ali s puno love i PR-a; posebno iz irske, švicarske i nizozemske) agencije ovime pokušavaju nadomjestiti prevoditelje, a manje agencije (i mi, kao slobodnjaci) služe samo za "reviziju" (eng. grease monkeys). to...

Ronis Hi-Fi slušaonica na Velesajmu.

Rezervirajte svoj termin!

Želite doživjeti zvuk visoke kvalitete? Pridružite nam se u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Napredna 8K HDMI veza.

Mrežni receiver DENON DRA-900H

Network stereo receiver, dvokanalno pojacalo visokih performansi, napredna 8K HDMI veza, ugraden HEOS®. Visokokvalitetno iskustvo slušanja i 8K video s 2-kanalnog mrežnog stereo prijemnika.

739 € Kupi

Visoka kvaliteta izrade.

Zvučnici REVEL Concerta2 M16

Zvucnik predviden za smještaj na policu ili stalak dvostaznog ustroja, stražnji bas reflex, preporucena ulazna snaga 50-120W,osjetljivost 86dB, nominalna impedanca 6Ohma, frekvencijski raspon 50-20,000Hz,

1.189 € Kupi

Dugotrajno slušanje bez zamora.

Zvučnici DAVIS ACOUSTICS Ariane 2

Dvosmjerni bookshelf, Frekvencijski odziv (+/- 3 dB): 48 - 22000 Hz; Efikasnost: 90 dB; Snaga (nominalna/maksimalna): 90/120; Impedancija: 5 mini Ohma.

600 € Kupi

Nova serija Motion Foundation.

Zvučnici MARTIN LOGAN Motion Foundation F1

3-smjerni floorstanding zvucnik, osjetljivost 92 dB, preporucena snaga pojacala: 15-200W, frekvencijski raspon: 41 Hz - 23 kHz ± 3 dB, nominalna impedancija: 4 ohm (kompatibilno 8 ohm), crossover frekvencija: 240 Hz, 2,700 Hz (3-way)

2.049 € Kupi

Kompaktni bežični zvučnik s impresivnim zvukom.

Bežični Hi-Fi zvučnik HARMAN KARDON Citation ONE MKIII

Ovaj WiFi zvucnik ima snagu od 40 W, visok je manje od 20 centimetara, tako da Citation ONE lako stane u ormar, na policu za knjige ili na stol, ali proizvodi impresivan zvuk kakav biste ocekivali od veceg zvucnika.

199 € ~~229 €~~ Akcija

Čista vintage estetika.

Gramofon CROSLEY VOYAGER Tan

Spin 33 1/3, 45 ili 78 RPM snima ili pokrenite ugradeni Bluetooth prijemnik za bežicni prijenos vaše digitalne glazbe kroz stereo zvucnike gramofona.

101 € ~~109 €~~ Akcija

Poboljšana disperzija i veća snaga.

Zvučnici ACOUSTIC ENERGY AE300

2-sistemski zvucnici sa 130mm mid-bass jedinicama drivera, novim keramickim aluminijskim sandwich konusom i 28mm aluminijskim visokotoncem, frekvencijski raspon 45Hz -30kHz, osjetljivost 86 dB, vršni SPL 112dB, snaga 100W, crossover frekvencija 2.8kHz, impedancija 6 ohma.

719 € ~~799 €~~ Akcija

Triple Design Reduction za čisti zvuk.

Linija DENON RCD-M41 DAB silver

Micro CD receiver, ugrađeni CD i FM radio DAB/DAB+, pojačalo snage 2x30 W, integriran Bluetooh, broj kanala: 2

379 € Kupi

Poništavanje buke svjetske klase.

Slušalice BOSE QuietComfort Ultra Headphones

Ugrađeni mikrofon, aktivno poništavanje buke, Bluetooth 5.3, Bose Music, USB-C, Bose Immersive Audio

525 € Kupi

Stereo zvuk visoke rezolucije.

Bežični zvučnik BOWERS & WILKINS Zeppelin 2021

Ovaj dizajn karakterizira karakteristicno kucište, zahvaljujuci kojem ga je teško zbuniti za bilo kojim drugim uredajem. Kompatibilnost s Apple AirPlay 2 i Spotify Connect, podrška za Bluetooth i aptX Adaptive kodek

699 € Kupi

Novi ultimativni PartyBox iz JBL-a.

Party zvučnik JBL PARTYBOX Club 120

160 W, Bluetooth, RGB, Dynamic frequency response range (Hz) 40 Hz - 20 kHz (-6dB), max baterija 12h

449 € NOVO

Novosti iz naše Hi-Fi slušaonice

Silence Alpha TT-1

Silence Alpha TT-1 je hrvatski proizvod, i to jedan od onih uz koje se morate naviknuti na pomisao da hrvatski proizvodi izgledaju totalno svjetski.

Kupi

Trenutno najpovoljnije cijene na tržištu

Vezano

Istraživanja

Indeks umjetne inteligencije 2024.

AI pobjeđuje ljude u osnovnim zadacima i zato nam trebaju nova mjerila

Mladen Smrekar 18. travnja 2024. 26

Umjetna inteligencija

simulacije

Holodeck, sustav za generiranje interaktivnih 3D okruženja

Mladen Smrekar 14. travnja 2024.

Istraživanja

online doktori

Previše dokaza zbunjuje velike jezične modele

Mladen Smrekar 6. travnja 2024. 6

Umjetna inteligencija

provjera autentičnosti

Raidar, lektor koji prepoznaje AI generirane tekstove

Mladen Smrekar 22. ožujka 2024. 7

Tehnologije

otrovni podaci

ToxicChat otkriva toksične upite u razgovoru s 'chatbotom'

Mladen Smrekar 5. ožujka 2024.

Komentar

Licenciranje sadržaja

Reddit "prodao" svoj sadržaj

Ivan Podnar 20. veljače 2024. 13