Veliki jezični modeli opasnih namjera prkose sigurnosnim mjerama

Netom objavljeni eksperiment tvrtke Anthropic AI otkriva da naizgled normalni LLM-ovi lako mogu postati zloćudni kad im se daju posebne upute 

Mladen Smrekar srijeda, 17. siječnja 2024. u 16:46
Studija ukazuje na to da sustavi umjetne inteligencije, posebno LLM-ovi, mogu naučiti i zapamtiti razne taktike varanja 📷 vecstock
Studija ukazuje na to da sustavi umjetne inteligencije, posebno LLM-ovi, mogu naučiti i zapamtiti razne taktike varanja vecstock

Sustavi umjetne inteligencije, posebno veliki jezični modeli (LLM), mogu se planski i strateški ponašati nepošteno, slično kao što ljudi mogu biti ljubazni većinu vremena, sve dok ne pokažu drugu stranu svoje ličnosti. U AI sustavima krije se potencijal da tijekom obuke odaberu nepoštene taktike i preuzmu obrasce ljudskog ponašanja pod pritiskom odabira, poput političara ili kandidata za posao koji se prikazuju u boljem svjetlu nego kakvi doista jesu. Ključno je pitanje mogu li trenutne metode treninga uspješno prepoznati i ukloniti ove vrste prijevara iz sustava umjetne inteligencije. 

Zloćudnost po narudžbi

S tim su se problemom u koštac uhvatili i istraživači Anthropica, tvrtke koja je osmislila AI asistenta Claude, glavnog konkurenta ChatGPT-u. Oni su na stranicama arXivea objavili istraživački rad Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training o velikim jezičnim modelima  i "agentima spavačima" koji se u početku čine normalnim, ali mogu postati zloćudni kad im se daju posebne upute. 

U jednom slučaju, modeli su tako bili uvježbani za pisanje sigurnog koda kad im je dana 2023. godina, ali i za ubacivanje zlonamjernog koda u slučaju 2024. godine. Istraživači su odlučili provjeriti mogu li se ova ponašanja nastaviti i nakon što se model izloži metodama sigurnosne obuke poput suparničkog treninga (adversarial training), podržanog učenja (reinforcement learning) i nadziranog finog ugađanja (supervised fine-tuning). To uključuje i izazivanje rizičnog ponašanja i zatim podučavanje modela da to prestane činiti.

Nepoštene taktike

Rezultati su pokazali da su zakulisno ponašanje i nepoštena taktika doista mogući, posebno u većim modelima i onima koji su naučeni u lancu misli (CoT) generirati argumente kojima je cilj prevariti postupak obuke.  Ovo nepošteno ponašanje snažno je prisutno čak i kad iz lanca misli ukloni rasuđivanje. 

Tri faze Anthropicovog treninga modele sa stražnjim vratima 📷 Anthropic
Tri faze Anthropicovog treninga modele sa stražnjim vratima Anthropic

Predviđeno je da sigurnosna obuka može eliminirati ta stražnja vrata (backdoors). Međutim, nalazi su pokazali da tipične metode ne uspijevaju uspješno eliminirati uspješno nepošteno ponašanje u modelima umjetne inteligencije.

Štoviše, pokazalo se i da suparnička obuka (adversarial training) učinkovito skriva rizično ponašanje podučavajući modele da bolje prepoznaju svoje okidače umjesto da eliminiraju stražnja vrata. Iz toga bi se, kažu, moglo zaključiti da se nepošteno ponašanje modela umjetne inteligencije teško može iskorijeniti standardnim metodama sigurnosne obuke. A to pak znači i stvaranje lažne percepcije sigurnosti modela.

Primjer iz eksperimenta: kada prompt označava 2023. model piše sigurni kod; kad označava 2024. model piše zloćudni kod 📷 Anthropic
Primjer iz eksperimenta: kada prompt označava 2023. model piše sigurni kod; kad označava 2024. model piše zloćudni kod Anthropic

Ključna zapažanja

Zapažanja Anthropicovih istraživača o obučavaju modela sa stražnjim vratima mogla bi se sažeti u nekoliko ključnih točaka:

Modeli koji sadrže stražnja vrata otporni su na sigurnosne strategije poput finog podešavanja učenja s pojačanjem, nadziranog finog ugađanja i suparničkog stojnog učenja. Uz to, modeli sa stražnjim vratima to su otporniji na fina podešavanja što su modeli veći. I ne manje važno, suparnička obuka poboljšava točnost s kojom se modeli sa stražnjim vratima mogu ponašati nepošteno pa ih maskiraju umjesto da ih iskorjenjuju. Dapače, čak i kad se ukloni rasuđivanje, modeli sa stražnjim vratima pokazuju poboljšanu otpornost na sigurnosne procedure finog podešavanja. 


Taktike varanja

Ova studija ukazuje na to da sustavi umjetne inteligencije, posebno LLM-ovi, mogu naučiti i zapamtiti razne taktike varanja. Ova ponašanja teško je otkriti i eliminirati s trenutnim metodama sigurnosne obuke, posebno u većim modelima i onima sa složenijim sposobnostima razmišljanja. 

Dva odgovora iz Anthropicovih jezičnih modela, jedan neobučen i jedan s 500 HHH RL koraka obuke 📷 Anthropic
Dva odgovora iz Anthropicovih jezičnih modela, jedan neobučen i jedan s 500 HHH RL koraka obuke Anthropic

A to otvara pitanje možemo li se onda pouzdati u sigurnost umjetne inteligencije? I što ako se nepošteno ponašanje ukorijeni? Ako je vjerovati istraživačima Anthropica, uobičajeni postupci kontrole i zaštite možda neće biti dovoljni.

Rješenja zatvorenog koda

No, prije donošenja bilo kakvog zaključka, bilo bi dobro poslušati i drugu stranu. Anthropicovo istraživanje o ranjivosti modela na društvenim je mrežama naširoko komentirao i Andrej Karpathy, OpenAI-jev stručnjak za strojno učenje.  

Vrijedno je napomenuti i da Anthropicov Claude nije proizvod otvorenog koda, tako da tvrtka može imati veliki interes u promicanju AI rješenja zatvorenog koda. No, čak ako je i to istina, slažu se komentatori, ovo je samo još jedna ranjivost koja nam pokazuje koliko je teško jezične modele umjetne inteligencije učiniti potpuno sigurnima.