Curenje LLaMA pokrenulo novu revoluciju u generativnoj UI

Izrada neuralnih mreža otvorenog koda omogućuje istraživačima da pogledaju "ispod haube" i shvate zašto sustavi ponekad na pitanja odgovaraju na nepredvidive načine, ali i budi razne strahove

Mladen Smrekar petak, 23. lipnja 2023. u 20:26
Umjetna inteligencija uskoro će naučiti dovoljno da egzistencijalno ugrozi čovječanstvo, strahuju neki 📷 kjpargeter
Umjetna inteligencija uskoro će naučiti dovoljno da egzistencijalno ugrozi čovječanstvo, strahuju neki kjpargeter

Ne posustaje pomama za generativnom umjetnom inteligencijom, započeta pojavom OpenAI-jevog ChatGPT-a. No dok velike tehnološke tvrtke kao što su OpenAI i Google privlače pozornost šire javnosti, i zaradu od svojih UI alata, prava revolucija događa se u tišini, u nizu malih kompanija. I dok velike kompanije često skrivaju svoje adute, mali igrači ne odustaju od otvorenosti i principa otvorenog koda, piše Nature.

Veliki jezični modeli

To posebno vrijedi za velike jezične modele (LLM), umjetne neuronske mreže gladne podataka koje pokreću niz tekstualno orijentiranih softvera, uključujući chatbotove i automatizirane prevoditelje. Tako na primjer njujorški Hugging Face na svojoj web stranici navodi više od 100 LLM-ova otvorenog koda.

BLOOM  je višejezični sustav otvorenog koda namijenjen istraživačima   📷 BigScience
BLOOM je višejezični sustav otvorenog koda namijenjen istraživačima BigScience

Ova tvrtka koja razvija alate za izradu aplikacija pomoću strojnog učenja, najpoznatija po biblioteci transformatora za obradu prirodnog jezika i platformi koja omogućuje dijeljenje modela strojnog učenja i skupova podataka, lani je predvodila BigScience, koaliciju volontera istraživača i akademika koja je razvila model BLOOM višejezični sustav otvorenog koda namijenjen istraživačima. 

Mogućnosti LLaMA 

Pokret otvorenog koda novi je poticaj dobio u veljači kad je na internetu procurio pristup modelu LLaMA koji je Meta prvotno namijenila samo odabranim vanjskim programerima. Dostupnost LLaMA-e promijenila je igru ​​za istraživače umjetne inteligencije. Puno je manji od drugih LLM-ova, što znači da ne zahtijeva velike računalne kapacitete za ugošćavanje prethodno obučenog modela ili za njegovu prilagodbu za specijalizirane aplikacije, kao što je pomoćnik u matematici ili chatbot korisničke službe.

Najveća verzija LLaMA-e sastoji se od 65 milijardi parametara: varijabli postavljenih tijekom početnog, općenamjenskog treninga neuronske mreže. To je manje od polovice BLOOM-ovih 176 milijardi parametara i djelić od 540 milijardi parametara Googleovog najnovijeg LLM-a, PaLM2.

Daljnji eksperimenti

Samo nekoliko tjedana nakon što je procurio LLaMA, programeri su uspjeli proizvesti verzije koje mogu stati na prijenosna računala, čak i na Raspberry Pi, golo računalo veličine kreditne kartice. Hugging Face pak primarno koristi LLaMA i ne planira forsirati BLOOM-2.

Verzija LLaMA stana na i najmanja prijenosna računala kao što je minijaturni Raspberry Pi  📷 Raspberry Pi
Verzija LLaMA stana na i najmanja prijenosna računala kao što je minijaturni Raspberry Pi Raspberry Pi

Programeri otvorenog izvornog koda sad eksperimentiraju s načinima još većeg smanjenja LLaMA-e. Neke tehnike uključuju zadržavanje broja parametara uz smanjenje preciznosti; riječ je o pristupu koji ne uzrokuje neprihvatljive padove performansi. Drugi pak smanjuju broj parametara treniranjem zasebne, manje neuronske mreže na odgovorima velike, unaprijed obučene mreže.

Pogled "ispod haube"

Istraživači umjetne inteligencije godinama su rutinski svoj kod činili otvorenim i svoje rezultate objavljivali u spremištima kao što je arXiv. Izrada neuronskih mreža otvorenog koda omogućuje istraživačima da pogledaju "ispod haube" i pokušaju razumjeti zašto sustavi ponekad na pitanja odgovaraju na nepredvidive načine i prenose pristranosti i toksične informacije iz podataka na kojima su obučavani. 

Model BLOOM je 117 dana obučavan na superračunalu Jean Zay 📷  Jean Zay
Model BLOOM je 117 dana obučavan na superračunalu Jean Zay Jean Zay

No, unatoč procvatu politike otvorenog izvornog koda, samo je nekoliko tvrtki sposobno stvoriti jezične modele od nule. Razvoj zahtijeva goleme resurse; procjenjuje se da su GPT-4 i Googleov PaLM 2 koštali desetke milijuna dolara vrijednog računalnog vremena, a da bi se došlo do "glavnog jela", da se poslužimo kulinarskom alegorijom, potreban je i niz "tajnih sastojaka" o kojima programeri šute, baš kao što kuhari čuvaju svoje recepte. 

Strah od dostupnosti

Sve su glasniji i kritičari koji smatraju kako široka dostupnost snažnih jezičnih modela povećava mogućnost da oni završe u krivim rukama. I da će umjetna inteligencija uskoro postati dovoljno inteligentna da egzistencijalno ugrozi čovječanstvo pa joj u tome ne bi trebalo dodatno pomagati, zaključuje Nature svoj pregled velikih jezičnih modela i politike otvorenog koda.