Usporedna analiza velikih jezičnih modela

Microsoft Research je predstavio rezultate usporedbe LLM-ova na različitim jezicima, modalitetima, modelima i zadacima

Mladen Smrekar ponedjeljak, 15. travnja 2024. u 18:26
Na jezicima s malo resursa veći komercijalni modeli kaošto su GPT-4 i Gemini-pro postižu bolje rezultate od manjih poput Gemme, Llame i Mistrala 📷 Freepik
Na jezicima s malo resursa veći komercijalni modeli kaošto su GPT-4 i Gemini-pro postižu bolje rezultate od manjih poput Gemme, Llame i Mistrala Freepik

Veliki jezični modeli (LLM) u mnogim su zadacima i mjerilima nadmašili prethodne generacije jezičnih modela, približili se ljudskim performansama, a ponekad ih čak i nadmašili. No, još uvijek nije sasvim jasno što se krije iza tih impresivnih vještina: poboljšane mogućnosti modela, kontaminacija u testnim skupovima podataka ili nedostatak skupova podataka koji točno procjenjuju njihove sposobnosti. 

Značajan nesrazmjer 

Većina dosadašnjih studija koje su pokušale procijeniti LLM-ove primarno su se usredotočile na engleski jezik. No, novo istraživanje Microsoft Researcha otkriva značajan nesrazmjer u LLM-ovom poznavanju engleskog jezika u usporedbi s drugim jezicima. Međutim, vrednovanje LLM-a na drugim jezicima osim engleskog predstavlja brojne izazove, uključujući nedostatak višejezičnih mjerila za zaključivanje, razgovor i dijalog u različitim jezičnim obiteljima.

Hijerarhija modela i zadataka u MEGAVERSE-u 📷 Microsoft Research
Hijerarhija modela i zadataka u MEGAVERSE-u Microsoft Research

Nalazi iz ranijih studija daju vrijedan uvid u višejezične mogućnosti LLM-a. U usporedbi s najsuvremenijim prilagođenim jezičnim modelima poput TULRv6, GPT-4 pokazuje superiornu izvedbu. No, GPT modeli pokazuju lošiju izvedbu, posebno oni dizajnirani za jezike s malo resursa i jezike pisane pismom koje nije latinično.

Rezultati za XQUAD na svim jezicima i modelima za nultu reakciju na više jezika 📷 Microsoft Research
Rezultati za XQUAD na svim jezicima i modelima za nultu reakciju na više jezika Microsoft Research

Microsoftovi istraživači proširili su pokrivenost na 22 skupa podataka i 83 jezika, uključujući mnoge afričke jezike s malo resursa, nadogradnjom na MEGA mjerilu i dodavanjem šest novih skupova podataka.

Fino podešavanje

Ovaj rad pruža vrijedne uvide programerima i istraživačima. Konkretno, pokazalo se kako veći komercijalni modeli poput GPT-4 i Gemini-pro postižu bolje rezultate od manjih poput Gemme, Llame i Mistrala na jezicima s malo resursa. 

Analiza plodnosti svih modela osim PaLM2 i Gemini 📷 Microsoft Research
Analiza plodnosti svih modela osim PaLM2 i Gemini Microsoft Research

Takav obrazac postoji u većini ispitivanih skupova podataka, što ukazuje da manji modeli imaju poteškoća s višejezičnom izvedbom. Da bi se poboljšala višejezična izvedba, sugeriraju istraživači, trebat će dodatno poraditi na finom podešavanju, modelima koji se temelje na obitelji jezika i modelima specifičnima za jezik. 

Multimodalni skupovi podataka

Što se tiče multimodalnih skupova podataka, pokazalo je istraživanje, GPT-4-Vision pokazao se boljim od LLaVA i Gemini-Pro-Vision, a učinkovitost jezičnog modela povezana je s plodnošću tokenizatora. Rad sugerira da je plodnost tokenizatora niža za jezike latiničnog pisma poput engleskog i španjolskog nego za morfološki komplicirane jezike poput telugua, malajskog i malajalamskog.

Pozitivni rezultati pokazuju da su trenutni LLM-ovi relativno dobri u zadacima jezičnih obitelji 📷 Microsoft Research
Pozitivni rezultati pokazuju da su trenutni LLM-ovi relativno dobri u zadacima jezičnih obitelji Microsoft Research

Zbog računskih i vremenskih ograničenja, istraživači nisu istražili kontaminaciju na svim skupovima podataka nego samo na 7B varijacijama modela otvorenog koda. Kontaminacija skupa podataka glavni je problem s usporednim studijama koje se provode na jezicima koji nisu engleski. Istraživači stoga namjeravaju poboljšati svoje kapacitete za otkrivanje kontaminacije i što bolju implementaciju zaštitnih mjera.