Sophia, novi način optimiziranja, obučava velike jezične modele u pola vremena
Inženjeri sa Stanforda razvili su novi način optimiziranja predobučavanja velikih jezičnih modela koji je dvostruko brži od trenutnih pristupa
ChatGPT i druge aplikacije koje se oslanjaju na velike jezične modele (LLM) sve se više koriste i privlače veliku pažnju medija. Tim prostorom dominira nekoliko velikih, dobro financiranih tehnoloških tvrtki jer je prethodna obuka (pretraining) ovih modela iznimno skupa, minimalno 10 milijuna dolara, a često i desetke puta više. Kako bi to promijenili, istraživači Sveučilišta Stanford odlučili su poboljšati trenutne LLM metode optimizacije. Rezultat je novi pristup nazvan Sophia koji prepolovljuje vrijeme prije treninga.
Procjena zakrivljenosti
LLM modeli imaju milijune ili čak milijarde parametara, a jedno od njihovih svojstava je njihova zakrivljenost. Program za optimizaciju koji može procijeniti tu zakrivljenost, mogao bi i predobučavanje učiniti učinkovitijim. Problem je u tome što je procjena zakrivljenosti postojećim metodama izuzetno teška i skupa. To je i jedan od razloga zašto trenutno najsuvremeniji pristupi optimizaciji predobučavanja, poput Adama i njegovih izvedenica, odustaju od procjene zakrivljenosti.
Umjesto da se zakrivljenost procjenjuje u svakom koraku optimizacije, istraživači sa Stanforda odlučili su proces učiniti učinkovitijim smanjujući broj ažuriranja i dizajnirali Sophiju koja će zakrivljenost parametara procjenjivati svakih 10 koraka. To je, pokazali su eksperimenti, bio dobar potez. Baš kao i clipping kojim su riješili problem netočne procjene zakrivljenosti.
U konačnici, ova kombinacija procjene zakrivljenosti i clippinga omogućila je optimizaciju u upola manjem broju koraka i upola kraćem vremenu nego što je to bilo potrebno Adamu.
Sophijin izbor
"Sofijina prilagodljivost razlikuje je od Adama kojemu je teže rukovati parametrima s heterogenim zakrivljenjima jer ih ne može predvidjeti", objašnjavaju istraživači koji su prvi značajan napredak u predobučavanju jezičnog modela postigli punih devet godina nakon standarda koji je postavio Adam.
Istraživači se nadaju da će korištenjem Sophije razviti veći LLM te da će je primijeniti i na druga područja strojnog učenja kao što su modeli računalnog vida ili multimodalni modeli.