Sophia, novi način optimiziranja, obučava velike jezične modele u pola vremena

Inženjeri sa Stanforda razvili su novi način optimiziranja predobučavanja velikih jezičnih modela koji je dvostruko brži od trenutnih pristupa

Mladen Smrekar utorak, 4. srpnja 2023. u 19:52
Kombinacija procjene zakrivljenosti i clippinga omogućila je optimizaciju u upola manjem broju koraka i upola kraćem vremenu 📷 rawpixel
Kombinacija procjene zakrivljenosti i clippinga omogućila je optimizaciju u upola manjem broju koraka i upola kraćem vremenu rawpixel

ChatGPT i druge aplikacije koje se oslanjaju na velike jezične modele (LLM) sve se više koriste i privlače veliku pažnju medija. Tim prostorom dominira nekoliko velikih, dobro financiranih tehnoloških tvrtki jer je prethodna obuka (pretraining) ovih modela iznimno skupa, minimalno 10 milijuna dolara, a često i desetke puta više. Kako bi to promijenili, istraživači Sveučilišta Stanford odlučili su poboljšati trenutne LLM metode optimizacije. Rezultat je novi pristup nazvan Sophia koji prepolovljuje vrijeme prije treninga.

Procjena zakrivljenosti

LLM modeli imaju milijune ili čak milijarde parametara, a jedno od njihovih svojstava je njihova zakrivljenost. Program za optimizaciju koji može procijeniti tu zakrivljenost, mogao bi i predobučavanje učiniti učinkovitijim. Problem je u tome što je procjena zakrivljenosti postojećim metodama izuzetno teška i skupa. To je i jedan od razloga zašto trenutno najsuvremeniji pristupi optimizaciji predobučavanja, poput Adama i njegovih izvedenica, odustaju od procjene zakrivljenosti.

Nakon punih devet godina postignut je prvi značajan napredak u predobučavanju jezičnog modela 📷 arXiv
Nakon punih devet godina postignut je prvi značajan napredak u predobučavanju jezičnog modela arXiv

Umjesto da se zakrivljenost procjenjuje u svakom koraku optimizacije, istraživači sa Stanforda odlučili su proces učiniti učinkovitijim smanjujući broj ažuriranja i dizajnirali Sophiju koja će zakrivljenost parametara procjenjivati svakih 10 koraka. To je, pokazali su eksperimenti, bio dobar potez. Baš kao i clipping kojim su riješili problem netočne procjene zakrivljenosti.  

Sophia poboljšava stabilnost prije treninga i neosjetljiva je na hiperparametre 📷 arXiv
Sophia poboljšava stabilnost prije treninga i neosjetljiva je na hiperparametre arXiv

U konačnici, ova kombinacija procjene zakrivljenosti i clippinga omogućila je optimizaciju u upola manjem broju koraka i upola kraćem vremenu nego što je to bilo potrebno Adamu. 

Sophijin izbor

"Sofijina prilagodljivost razlikuje je od Adama kojemu je teže rukovati parametrima s heterogenim zakrivljenjima jer ih ne može predvidjeti", objašnjavaju istraživači koji su prvi značajan napredak u predobučavanju jezičnog modela postigli punih devet godina nakon standarda koji je postavio Adam.

Istraživači se nadaju da će korištenjem Sophije razviti veći LLM te da će je primijeniti i na druga područja strojnog učenja kao što su modeli računalnog vida ili multimodalni modeli.