Raidar, lektor koji prepoznaje AI generirane tekstove
Nova metoda Columbia Engineeringa iskorištava "tvrdoglavost" LLM-ova koji tekst generiran umjetnom inteligencijom obično smatraju već optimalnim
Računalni znanstvenici Columbia Engineeringa, fakulteta za inženjerstvo i primijenjenu znanost Sveučilišta Columbia u New Yorku, razvili su novu metodu otkrivanja teksta generiranog umjetnom inteligencijom. Njihovo rješenje obećava pomake u načinu na koji provjeravamo autentičnost digitalnog sadržaja. To bi, nadaju se, trebalo utišati zabrinutost oko velikih jezičnih modela (LLM), digitalnog integriteta, dezinformacija i nepovjerenja u nove tehnologije.
Inovativan pristup
Takozvani Raidar (geneRative AI Detection viA Rewriting) uvodi inovativan pristup utvrđivanja je li tekst napisao čovjek ili ga je generirao AI ili LLM kao što je ChatGPT, bez potrebe za uvidom u unutarnji rad modela. Rad koji uključuje njegov otvoreni kod i skupove podataka bit će predstavljen na međunarodnoj konferenciji ICLR koja se početkom svibnja održava u Beču.
Istraživači su iskoristili jedinstvenu karakteristiku LLM-a koju nazivaju "tvrdoglavošću" (stubbornness). Naime, LLM-ovi pokazuju tendenciju da lakše mijenjaju tekst koji su napisali ljudi nego tekst generiran umjetnom inteligencijom. To se događa jer LLM-i često smatraju tekst generiran umjetnom inteligencijom već optimalnim i stoga u njega unose minimalne promjene.
Velika preciznost
Raidar pak koristi jezični model za preformuliranje ili izmjenu zadanog teksta, a zatim mjeri koliko ga je sustav uređivao. On uzima dio teksta, poput objave na društvenim mrežama, recenzije proizvoda ili objave na blogu, i od LLM-a traži da ga ponovno napiše. Raidar potom uspoređuje izvorni tekst s iznova napisanim kako bi izmjerio izmjene. Puno izmjena znači da su tekst vjerojatno napisali ljudi, dok manje izmjena znači da je tekst najvjerojatnije strojno generiran.
Raidar je iznenađujuće točan u tome što radi i prethodne metode nadmašuje do 29%. Ovaj skok u izvedbi postignut je korištenjem najsuvremenijih LLM-ova za ponovno pisanje unosa, bez potrebe za pristupom arhitekturi, algoritmima ili podacima o obuci AI-a. Raidar je uz to vrlo precizan čak i na kratkim tekstovima ili isječcima pa ga njegovi tvorci preporučuju kao moćan alat protiv širenja dezinformacija.
Istraživači žele obuhvatiti različite tekstualne domene, uključujući višejezični sadržaj i različite programske jezike te istražuju mogućnosti otkrivanja strojno generiranih slika, videa i zvuka kako bi izradili sveobuhvatni alat za identifikaciju sadržaja generiranog umjetnom inteligencijom.