Budućnost velikih jezičnih modela je u jednom bitu (zapravo dva, ali tko broji…)?
Umjesto 16- i 32-bitnih vaganih vrijednosti koje stoje iza ogromnih statističkih repozitorija današnjih velikih jezičnih modela, budućnost je (možda) u samo tri vagane vrijednosti koje se usprkos jednobitnom imenu, mogu svesti na dvobitnu reprezentaciju -1, 0 i 1

Istraživači iz Microsoftove grupe za opću umjetnu inteligenciju razvili su novi model neuronske mreže koji radi s samo tri različite vrijednosti težina: -1, 0 ili 1 (dakle, potrebna dva bita za reprezentaciju, iako je model nominalno „jednobitni). Ovaj model, nazvan BitNet b1.58, nadograđuje prethodna istraživanja Microsofta iz 2023. godine i donosi značajne prednosti u računalnoj učinkovitosti.
Tradicionalni AI modeli oslanjaju se na preciznost 16-bitnih ili 32-bitnih brojeva s pomičnim zarezom za pohranu vaganih vrijednosti koje pokreću neuronske mreže velikih jezičnih modela. Ta razina preciznosti zahtijeva veliku memoriju (stotine gigabajta za najveće modele) i značajne računalne resurse za složena matrična množenja, zbog čega je korištenje LLM-ova skupo i energetski zahtjevno.
BitNet b1.58 koristi ternarni sustav (nazvan "1,58-bitni" jer je to prosječan broj bitova potreban za predstavljanje tri vrijednosti). Ono što ga izdvaja je činjenica da je "prvi 1-bitni LLM treniran u velikom opsegu koji je otvorenog koda", što je rezultiralo modelom od 2 milijarde parametara temeljenom na skupu podataka za treniranje od 4 trilijuna tokena.
Ključna prednost ovog pristupa je što je model izvorno treniran s pojednostavljenim težinama, za razliku od mnogih prethodnih pokušaja kvantizacije koji su pokušavali smanjiti veličinu postojećih modela treniranih s punom preciznošću. Pokazalo se da takva naknadna kvantizacija često dovodi do značajne degradacije performansi.
BitNet b1.58 model može raditi koristeći samo 0,4 GB memorije, u usporedbi s 2 do 5 GB za druge modele otvorenih težina približno iste veličine parametara.
Pojednostavljeni sustav težina također dovodi do učinkovitijeg rada, s operacijama koje se više oslanjaju na jednostavno zbrajanje, a manje na računski skupo množenje. Ta poboljšanja učinkovitosti znače da BitNet b1.58 koristi između 85 i 96 posto manje energije u usporedbi sa sličnim modelima pune preciznosti.
Korištenjem visoko optimiziranog kernela dizajniranog posebno za BitNet arhitekturu, model može raditi nekoliko puta brže od sličnih modela na standardnom transformeru pune preciznosti. Sustav je dovoljno učinkovit da dosegne "brzine usporedive s ljudskim čitanjem (5-7 tokena u sekundi)" koristeći samo jedan CPU.
Istraživači tvrde kako ova poboljšanja ne dolaze nauštrb performansi na različitim testovima koji ispituju sposobnosti zaključivanja, matematike i znanja. Uzimajući prosjek rezultata na nekoliko uobičajenih testova, otkrili su da BitNet postiže sposobnosti gotovo jednake vodećim modelima u svojoj klasi veličine, dok nudi dramatično poboljšanu učinkovitost.
Unatoč uspjehu istraživači još ne razumiju u potpunosti zašto model radi tako dobro s tako pojednostavljenim težinama. Potrebno je više istraživanja kako bi ovi modeli mogli konkurirati ukupnoj veličini i memoriji kontekstnog prozora današnjih najvećih modela.