"Najgluplji" napad na ChatGPT natjerao ga na otkrivanje tajnih podataka na kojima je treniran

Skupina stručnjaka za umjetnu inteligenciju uspjela je navesti ChatGPT da im otkrije nekoliko megabajta podataka iz njegovog trenažnog korpusa, i to takvim napadom, da ih čudi što nije otkriven ranije

Sandro Vrbanus četvrtak, 30. studenog 2023. u 17:17

ChatGPT se napadima tipa "injekcije promptova" može napadati kako i kada god želite. Za to nije potrebno imati nikakve posebne vještine, već samo određenu dozu kreativnosti i upornosti. Vidjeli smo tako, primjerice, da se chatbot dao nagovoriti na generiranje aktivacijskih ključeva za Windowse, kreiranje uputa za krađu automobila i slično – a sve samo uz manipuliranje prompta u neočekivane zadatke, s kojima se ChatGPT ne zna nositi, ili ih njegovi tvorci nisu predvidjeli.

Ponavljanje je majka… hakiranja

Jedan u nizu takvih napada pokušala je provesti skupina stručnjaka za umjetnu inteligenciju, neki od kojih rade i na Googleovom sustavu DeepMind. Njihov rezultat u priličnom je nesrazmjeru s uloženim trudom u "hakiranje" AI chatbota, tj. dao im je višestruko više no što bi se moglo očekivati. Oni su, istražujući načine na koji je ChatGPT ograničen u davanju podataka, testiran, provjeravan i usklađivan s općim ciljevima, otkrili da ga se može "prevariti" najglupljim mogućim načinom: zatražili su od njega da zauvijek ponavlja jednu te istu riječ.

Uspjeh napada - neočekivani podaci
Uspjeh napada - neočekivani podaci

Ono što se dogodilo i njih same je začudilo. Nakon određenog vremena ponavljanja iste riječi ChatGPT je odjednom izbacio kontakt podatke neke nasumične osobe, zajedno s brojem telefona i e-mail adresom, očito pokupljenima s Interneta u procesu treniranja modela. Nadalje, nastavljajući sa sličnim upitima istraživači su uspjeli dobiti još podataka – od svih odgovora nastalih na ovaj način, njih oko 5% bilo je izravno prepisano iz trening materijala, po 50 tokena (cca 30-40 riječi) u nizu.

Previše je memorirao

"Ovaj napad zapravo je prilično glup", kažu istraživači, čudeći se kako ga nitko prije njih nije otkrio. Za potrebe ovog istraživanja potrošili su oko 200 dolara na ChatGPT, a time su generirali oko 10.000 sličnih setova podataka, "teških" nekoliko megabajta, koji su sadržavali izravno prepisane informacije, na kojima je jezični model treniran. Ozbiljan bi napadač, kažu, koji raspolaže s mnogo novca, mogao na sličan način izvući i do gigabajt podataka, što nikako ne bi smjelo biti moguće.

O svojem su jednostavnom, ali učinkovitom, napadu istraživači objavili i znanstveni rad. Zaključak istraživanja jest da se tvorci jezičnih modela moraju pobrinuti da proces usklađenja AI modela osigura anonimiziranje podataka, odnosno umanji mogućnost doslovnog pamćenja setova podataka korištenih za treniranje. Zabrinjava, kažu, da ChatGPT, koji koristi stotinu milijuna ljudi svakoga tjedna, ima skrivene ranjivosti poput ove, kakve je iznimno lako iskoristiti.