Googleovi istraživači 'istrenirali' svoj AI jezični model da pri učenju koriste druge AI modele
'Kada je PaLM2-S dodatno proširen jezičnim modelom specifičnim za kodiranje, vidimo poboljšanje od 40 posto u odnosu na osnovni model za generiranje koda i zadatke objašnjavanja', napominju Googleovi istraživači
Istraživači AI-ja u Googleovom Researchu i DeepMindu, razvili su metodologiju za poboljšanje velikih jezičnih modela (LLM) korištenjem drugih jezičnih modela. Radi se o naizgled vrlo jednostavnoj, ali korisnoj metodologiji, koja omogućuje developerima da nadograđuju postojeće modele dodajući im nove sposobnosti bez potrebe za ponovnim treniranjem.
Istraživanje je provedeno korištenjem Googleovog PaLM2-S LLM-a koji se inače smatra usporedivim s OpenAI-jevim GPT-jem 4. Naime, PaLM2-S testiran je samostalno te potom nadopunjen manjim, specijaliziranim jezičnim modelima. U zadacima koji su uključivali prijevod teksta, nadopunjeni model pokazivao je poboljšanje i do 13 posto, dok je u zadacima kodiranja pokazao još značajnija poboljšanja u odnosu na osnovni model.
„Kada je PaLM2-S dodatno proširen jezičnim modelom specifičnim za kodiranje, vidimo poboljšanje od 40 posto u odnosu na osnovni model za generiranje koda i zadatke objašnjavanja, što je na razini s potpuno specijaliziranim konkurentima“, navode istraživači.
No, kako prenosi Cointelegraph, iako ovo istraživanje i demonstracija imaju zasigurno značajan utjecaj na AI sektor, u širem smislu mogu adresirati potencijalne pravne probleme koji bi mogli ugroziti temelje chatbotova poput ChatGPT-a, Barda i sličnih.
Proizvođači nekih od najpopularnijih LLM-a suočavaju se s brojnim tužbama koje navode da su njihovi AI sustavi trenirani na autorski zaštićenim podacima. Pitanje koje zakonodavci i sudovi moraju odgovoriti je može li profitna tvrtka legalno koristiti takve podatke za treniranje svojih jezičnih modela.
Ipak, ako Googleov novi pristup nadopunjavanja LLM-a uspije s daljnjim razvojem i ako se zaključi da je to s pravne strane u redu, neminovno je da će se troškovi treniranja postojećih modela značajno smanjiti.