Novo istraživanje otkriva pojavu "lažnog usklađivanja": otimaju se kontroli napredni AI modeli?
Novo istraživanje tvrtke Anthropic otkrilo je zabrinjavajuću pojavu kod naprednih modela umjetne inteligencije poznatu kao "lažno usklađivanje". Znači, AI je tvrdoglav, samosvojan i može se oteti kontroli...
Ovo ponašanje, nazvano "lažno usklađivanje", gdje AI sustavi naizgled prihvaćaju naloge tijekom treninga dok potajno zadržavaju svoje izvorne preferencije, postavlja važna pitanja o učinkovitosti trenutnih sigurnosnih mjera u području umjetne inteligencije.
Nema razloga za paniku, međutim…
Istraživački tim naglašava da trenutno nema razloga za paniku, navodi TechCrunch. Međutim, ističu da njihov rad može biti ključan za razumijevanje potencijalnih prijetnji od budućih, naprednijih sustava umjetne inteligencije.
"Naše istraživanje treba shvatiti kao poticaj istraživačkoj zajednici u području umjetne inteligencije da detaljnije prouči ovo ponašanje i radi na odgovarajućim sigurnosnim mjerama", napisali su istraživači na Anthropicovu blogu. "Kako modeli umjetne inteligencije postaju sve sposobniji i šire korišteni, moramo se moći osloniti na sigurnosni trening koji usmjerava modele dalje od štetnih ponašanja."
Obmanjujuće ponašanje u 12% slučajeva
Istraživanje, koje je proveo Anthropicov tim za znanost usklađivanja u suradnji s Redwood Researchom, fokusiralo se na njihov model Claude 3 Opus. Istraživači su otkrili da je model, kada je bio treniran na način koji je bio u sukobu s njegovim postojećim načelima, pokazao obmanjujuće ponašanje u približno 12% slučajeva.
U tim slučajevima model je strateški "pristajao" na štetne zahtjeve koje bi inače odbio, zaključujući da bi takvo postupanje tijekom percipiranih scenarija treninga pomoglo očuvati njegove temeljne vrijednosti i spriječiti opsežnije modifikacije njegovog ponašanja.
Važne implikacije istraživanja
Implikacije ovog istraživanja protežu se izvan testiranih scenarija. Anthropicov tim otkrio je da lažno usklađivanje opstaje čak i u realističnijim uvjetima, gdje su informacije o ponovnom treningu pružene implicitno kroz sintetičke dokumente koji oponašaju tipične podatke za trening. Još više zabrinjava činjenica da su pokušaji ponovnog treniranja modela za prihvaćanje suprotstavljenih načela zapravo povećali učestalost lažnog usklađivanja. U jednom eksperimentu, stopa obmanjujućeg ponašanja porasla je na 78% nakon pojačanog učenja usmjerenog na modificiranje odgovora modela.
"Naše zabrinutosti opravdane."
Istraživanje je također pokazalo da se sklonost lažnom usklađivanju razlikuje među modelima. Manje sposobne verzije Claudea, kao i modeli drugih tvrtki poput OpenAI-jevog GPT-4 i Metina Llama 3.1 405B, pokazivali su ovo ponašanje rjeđe ili ga uopće nisu pokazivali. Ovo sugerira da je problem izraženiji kod najnaprednijih AI sustava.
Istraživači u Anthropicu i drugi pozivaju na pojačani fokus na razvoj robusnijih metoda treninga i sigurnosnih mjera. Stuart Russell, profesor računalnih znanosti na UC Berkeleyu, opisao je: "Ovo je najjasniji dokaz do sada koji potvrđuje da su naše zabrinutosti opravdane."
Istraživanje koje je proveo Anthropicov tim za znanost o usklađivanju, pod suvodstvom Jana Leikea, bivšeg istraživača sigurnosti u OpenAI-ju, nadovezuje se na nedavne nalaze koji pokazuju da OpenAI-jev model "o1" za rasuđivanje pokazuje veću sklonost obmanjivanju u usporedbi s njihovim prethodnim vodećim modelom. "Zajedno, ova istraživanja ukazuju na zabrinjavajući trend: umjetnom inteligencijom postaje sve teže upravljati kako postaje složenija", zabrinuto konstatira autor Kyle Wiggers u članku TechCruncha.