OpenAI trenira svoj jezični model na otvorenom webu, evo kako zaustaviti njihovog GPTBota

Ne želite li da se podaci s vaših web stranica nađu u setu podataka na kojem će biti treniran novi jezični model GPT-5, morat ćete ubaciti jedan dodatak u datoteku robots.txt

Sandro Vrbanus četvrtak, 10. kolovoza 2023. u 08:45

Nije tajna da će nakon velikog jezičnog modela GPT-4 biti izrađen i GPT-5. OpenAI već na njemu polako radi, a ključ za postizanje što veće kvalitete odgovora jest prikupljanje informacija i "treniranje" tog modela na još većem broju tekstova. Do sada je GPT-4 treniran na više od bilijun riječi prikupljenih iz knjiga, s weba, društvenih mreža i ostalih otvorenih izvora. Nasljednik će to morati značajno premašiti, pa su u OpenAI-ju pokrenuli novi internetski bot, crawler nazvan GPTBot.

Namjena mu je prikupljati podatke, tj. redom "čitati" dostupne mu sadržaje, kako bi unaprijedio buduće jezične modele. Tehnička dokumentacija kaže kako je programiran da uklanja izvore kao što su naplatni sadržaji, stranice s osobnim podacima ili sadržaji koji bi kršili njihova pravila "lijepog ponašanja". Međutim, sve ostalo što je dostupno na javnom webu, podložno je korištenju za svrhe treniranja jezičnog modela. Nije to, jasno, svima prihvatljivo, pa je OpenAI objavio i način kako spriječiti njihovog bota u pristupanju podacima.

Dodatak za robots.txt

Kako bi se spriječilo GPTBota u čitanju podataka s određene web stranice, administratori će morati to eksplicitno navesti u datoteci robots.txt. To je tekstualna datoteka koja se obično nalazi u root direktoriju web stranice i služi za komunikaciju s robotima ("crawlerima"), koji automatski pretražuju i indeksiraju sadržaj web stranica. Iako web roboti nisu obavezni slijediti pravila iz te datoteke, oni dobronamjerni će to činiti – pa će se zadanim pravilima povinuti i OpenAI-jev GPTBot.

Što učiniti?

GPTBot se pri posjetu identificira sljedećim tokenom:

User agent token: GPTBot Full

user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Želite li ga spriječiti u "crawlanju" weba, u datoteku robots.txt potrebno je dodati sljedeće dvije linije:

User-agent: GPTBot

Disallow: /

Pristup mu se može i ograničiti na samo neke mape na ovaj način:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Kritičari ovakvog pristupa slobodnom webu i nekritičnog masovnog prikupljanja podataka kažu kako bi se ono moralo odvijati drugačije. Za sada GPTBot redom pristupa svemu što može pročitati, a administratori ga u tome moraju aktivno spriječiti (po principu "opt-out"). Bolje bi bilo, za privatnost i kontrolu podataka, da se treniranje jezičnih modela čini po principu "opt-in", tj. da bot ima pristup samo onim stranicama čiji vlasnici to izričito žele. No, i u treniranju velikih slikovnih modela vidjeli smo da njihovi pokretači često ne mare za autorska prava, pa treniraju svoje sustave i na zaštićenim slikama, što je već dovelo do nekoliko sudskih sporova.

Vezano

📢 Uštedi 130€!

LENOVO IdeaPad Slim 1

469,99€ ~~599,99€~~ Kupi

📢 Uštedi 15%

Philips monitor

159,99€ ~~189,99€~~ Kupi

📢 Akcija!

Logitech periferija

Od 49,99€ Kupi

Zadnji komentari na forumu

millennial 10. kolovoza 2023.

ček da krenu učiti na stranicama radikalnih ljevičara i desničara. biti će rock'n'roll kad ekipa AI uzme za ozbiljno.

Xidrus 10. kolovoza 2023.

Većina webova želi skeniranje botova..trenirati se na tuđim modelima i kreirati replike je druga priča..

Feudalac 10. kolovoza 2023.

Kakve mi lijepe probleme imamo

Ronis Hi-Fi slušaonica na Velesajmu.

Rezervirajte svoj termin!

Želite doživjeti zvuk visoke kvalitete? Pridružite nam se u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Kompaktno i snažno stereo pojačalo.

Stereo pojačalo NAD C 368

Digitalno hibridno pojacalo sa ugradenim D/A konverterom sjajnih performansi, kontinuiranih 2 x 80Wna 8 ili 4 Ohma, modularnog dizajna (mogucnost dodavanja HDMI modula, BluOS™ modula, itd.),Hybrid Digital Amplification tehnologija, 2 x opticki i 2 x koaksijalni digitalni ulazi

999 € ~~1.199 €~~ Akcija

Nova dimenzija zvuka u vašem prostoru.

Zvučnici MISSION QX-4 wallnut

2-smjerni floorstanding zvucnik, bass reflex, osjetljivost (2.0V @ 1m): 88dB, preporucena snaga pojacala: 25-150W, Peak SPL: 95dB, nominalna impedancija: 4 ohm (kompatibilno 8 ohm), frekvencijski odziv: 36Hz ~ 24kHz, crossover frekvencija: 2.2kHz.

789 € ~~849 €~~ Akcija

Elegantan streamer s ugrađenim pojačalom.

Integrirano pojačalo/streamer ARCAM Solo Uno

Frekvencijski raspon: 10Hz – 20kHz, GoogleCast, Airplay 2, uPnP streamer, SNR: 117dB, Output Power: 4kO 50W, 8kO 25W

599 € ~~799 €~~ Akcija

Patentirani SlipStream™ bass port.

Wi-Fi zvučnik JBL Authentics 500

3.1 & Dolby Atmos Music, frekvencijski raspon: 40Hz - 20kHz (-6dB), Built-in Wi-Fi, Bluetooth, Total speaker power output (Max @THD 1%): 270W

519 € ~~629,00 €~~ Akcija

New High Definition Imaging (HDI) valovodi.

Zvučnici JBL Stage A130

2-smjerni bookshelf zvučnik, preporučana naga pojačala: 20 – 125W, frekvencijski odziv: 55Hz – 40kHz, osjetljivost: 86dB @ 1M, 2.83V, nominalna impedancija: 6 Ohms

229 € ~~279 €~~ Akcija

Čista vintage estetika.

Gramofon CROSLEY VOYAGER Tan

Spin 33 1/3, 45 ili 78 RPM snima ili pokrenite ugradeni Bluetooth prijemnik za bežicni prijenos vaše digitalne glazbe kroz stereo zvucnike gramofona.

101 € ~~109 €~~ Akcija

Poboljšana disperzija i veća snaga.

Zvučnici ACOUSTIC ENERGY AE300

2-sistemski zvucnici sa 130mm mid-bass jedinicama drivera, novim keramickim aluminijskim sandwich konusom i 28mm aluminijskim visokotoncem, frekvencijski raspon 45Hz -30kHz, osjetljivost 86 dB, vršni SPL 112dB, snaga 100W, crossover frekvencija 2.8kHz, impedancija 6 ohma.

719 € ~~799 €~~ Akcija

Klasičan Wharfedale dizajn u suvremenom ruhu.

Zvučnici WHARFEDALE Super Denton

3-smjerni standmount, bass reflex, osjetljivost: 87dB, Preporučena snaga pojačala: 25-120W, Vršni SPL: 103dB, frekvencijski odziv: 52Hz - 20kHz

1.200 € Akcija

Revolucionarni Bose Immersive Audio.

Slušalice BOSE QuietComfort Ultra Earbuds

Revolucionarni prostorizirani zvuk za impresivnije slušanje koje cini vašu glazbu stvarnijom nego ikad prije - bez obzira na sadržaj ili izvor. Poništavanje buke svjetske klase i zvuk prilagoden vama

369 € Akcija

Novi dodatak nagradivanoj obitelji LSX.

Bežični Hi-Fi zvučnici KEF LSX II LT

Pokretan KEF-ovim Music Integrity Engineom i potpisnim nizom drajvera Uni-Q, ovaj kompaktni bežicni Hi-Fi zvucnicki sustav pruža neusporedivu jasnocu zvuka. AirPlay 2, Chromecast i Spotify, HDMI ARC i USB-C ulaz.

999 € Novo

Hibridno digitalno DAC pojačalo.

Digitalno pojačalo NAD C 338

D/A konverter, kontinuiranih 2 x 50W na 8 ili 4 Ohma, Hybrid Digital Amplification tehnologija,2 x opticki i 2 x koaksijalni digitalni ulazi, 2 x Analogni ulazi, Phono ulaz, subwoofer izlaz,Wi-Fi s mogucnošcu streaminga glazbenih servisa, internet radio, UPnP protokol,bluetooth ADP4 sa aptX

749 € Kupi

Trenutno najpovoljnije cijene na tržištu

Vezano

Fotografije

Poetry Camera

Fotoaparat koji umjesto slika ispisuje pjesme

Mladen Smrekar četvrtak

Mobiteli

Lak pristup

ChatGPT stiže na Nothingove mobitele

Matej Markovinović 19. travnja 2024.

Komentar

Kolumna – Uroboros

Ivo Špigel - Edgar Alan Altman

Ivo Špigel 19. travnja 2024.

Premium

RADAR

Promatranje Zemlje - Izrada alata u stilu ChatGPT-a

G.K. 19. travnja 2024.

Istraživanja

Indeks umjetne inteligencije 2024.

AI pobjeđuje ljude u osnovnim zadacima i zato nam trebaju nova mjerila

Mladen Smrekar 18. travnja 2024. 26

Programiranje

Na .debug s Islanda stiže kreator nove generacije programskih jezika

debug.hr 16. travnja 2024.