OpenAI trenira svoj jezični model na otvorenom webu, evo kako zaustaviti njihovog GPTBota

Ne želite li da se podaci s vaših web stranica nađu u setu podataka na kojem će biti treniran novi jezični model GPT-5, morat ćete ubaciti jedan dodatak u datoteku robots.txt

Sandro Vrbanus četvrtak, 10. kolovoza 2023. u 08:45

Nije tajna da će nakon velikog jezičnog modela GPT-4 biti izrađen i GPT-5. OpenAI već na njemu polako radi, a ključ za postizanje što veće kvalitete odgovora jest prikupljanje informacija i "treniranje" tog modela na još većem broju tekstova. Do sada je GPT-4 treniran na više od bilijun riječi prikupljenih iz knjiga, s weba, društvenih mreža i ostalih otvorenih izvora. Nasljednik će to morati značajno premašiti, pa su u OpenAI-ju pokrenuli novi internetski bot, crawler nazvan GPTBot.

Namjena mu je prikupljati podatke, tj. redom "čitati" dostupne mu sadržaje, kako bi unaprijedio buduće jezične modele. Tehnička dokumentacija kaže kako je programiran da uklanja izvore kao što su naplatni sadržaji, stranice s osobnim podacima ili sadržaji koji bi kršili njihova pravila "lijepog ponašanja". Međutim, sve ostalo što je dostupno na javnom webu, podložno je korištenju za svrhe treniranja jezičnog modela. Nije to, jasno, svima prihvatljivo, pa je OpenAI objavio i način kako spriječiti njihovog bota u pristupanju podacima.

Dodatak za robots.txt

Kako bi se spriječilo GPTBota u čitanju podataka s određene web stranice, administratori će morati to eksplicitno navesti u datoteci robots.txt. To je tekstualna datoteka koja se obično nalazi u root direktoriju web stranice i služi za komunikaciju s robotima ("crawlerima"), koji automatski pretražuju i indeksiraju sadržaj web stranica. Iako web roboti nisu obavezni slijediti pravila iz te datoteke, oni dobronamjerni će to činiti – pa će se zadanim pravilima povinuti i OpenAI-jev GPTBot.


Što učiniti?

GPTBot se pri posjetu identificira sljedećim tokenom:

User agent token: GPTBot Full

user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Želite li ga spriječiti u "crawlanju" weba, u datoteku robots.txt potrebno je dodati sljedeće dvije linije:

User-agent: GPTBot

Disallow: /

Pristup mu se može i ograničiti na samo neke mape na ovaj način:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/


Kritičari ovakvog pristupa slobodnom webu i nekritičnog masovnog prikupljanja podataka kažu kako bi se ono moralo odvijati drugačije. Za sada GPTBot redom pristupa svemu što može pročitati, a administratori ga u tome moraju aktivno spriječiti (po principu "opt-out"). Bolje bi bilo, za privatnost i kontrolu podataka, da se treniranje jezičnih modela čini po principu "opt-in", tj. da bot ima pristup samo onim stranicama čiji vlasnici to izričito žele. No, i u treniranju velikih slikovnih modela vidjeli smo da njihovi pokretači često ne mare za autorska prava, pa treniraju svoje sustave i na zaštićenim slikama, što je već dovelo do nekoliko sudskih sporova.