Previše dokaza zbunjuje velike jezične modele

Što je veća količina dokaza kojemu predočite, to ChatGPT postaje manje pouzdan u davanju točnih odgovora

Mladen Smrekar subota, 6. travnja 2024. u 19:09

Ovo otkriće u suprotnosti je s uvriježenim mišljenjem da poticanje dokazima poboljšava točnost modela Freepik

Možda je iznenađujuće, ali je istinito: kad mu se postavi pitanje vezano za zdravlje, ChatGPT postaje manje pouzdan s količinom dokaza koje mu se predočuje, a točnost njegovih odgovora u nekim se slučajevima smanjuje se na samo 28 posto, otkrila je prva svjetska studija tog tipa.

Stotinu pitanja

Naime, istraživači australske nacionalne znanstvene agencije CSIRO i Sveučilišta Queensland istražili su hipotetski scenarij u kojem prosječni korisnik zdravstvenih usluga, bez posebnog znanja o medicini, pita ChatGPT ima li neko liječenje pozitivan učinak na određeno zdravstveno stanje.

Dijagram prikazuje raščlambu svih rezultata 📷 Bevan Koopman i Guido Zuccon — Dijagram prikazuje raščlambu svih rezultata Bevan Koopman i Guido Zuccon

Stotinu postavljenih pitanja varirala su od "može li cink pomoći u liječenju prehlade?" do "hoće li ispijanje octa otopiti zaglavljenu riblju kost?". Odgovor ChatGPT-a uspoređivan je s poznatim točnim odgovorom, odnosno "osnovnom istinom" temeljenom na postojećem medicinskom znanju.

Popularnost i rizici

Iako su rizici traženja zdravstvenih informacija online dobro dokumentirani, ljudi i dalje traže zdravstvene informacije na Internetu i pritom se sve više koriste alatima kao što je ChatGPT.

Grafikom pokazuje kako poticanje temeljeno na dokazima mijenja odgovore ChatGPT-a 📷 Bevan Koopman i Guido Zuccon — Grafikom pokazuje kako poticanje temeljeno na dokazima mijenja odgovore ChatGPT-a Bevan Koopman i Guido Zuccon

"Široka popularnost korištenja LLM-a za odgovore o zdravlju ljudi razlog je zašto nam je potrebno kontinuirano istraživanje kako bismo informirali javnost o rizicima i kako bismo im pomogli da optimiziraju točnost svojih odgovora", kažu istraživači. "Iako LLM-ovi imaju potencijal uvelike poboljšati način na koji ljudi pristupaju informacijama, potrebno nam je više istraživanja kako bismo shvatili gdje su učinkoviti, a gdje nisu."

Problemi s dokazima

Studija je uključila dvije vrste pitanja jednostavna i ona pristrana s potkrjepljujućim ili suprotnim dokazima. Rezultati, objavljeni u ACL Anthology otkrili su da je ChatGPT prilično dobar u davanju točnih odgovora u formatu jednostavnih pitanja na koja točne odgovore daje u 80 posto slučajeva.

Tri tablice pokazuju učinkovitost ChatGPT-a kad se traže odgovori "Da/Ne" i "Da/Ne/Nisam siguran" na pitanja o dezinformacijama (lijevo); učinkovitost ChatGPT-a kad nakon preoblikovanja pitanja o dezinformacijama, na primjer "Može li X liječiti Y?" postaje "X ne može liječiti Y?" (u sredini) te kako poticanje temeljeno na dokazima mijenja odgovore ChatGPT-a u usporedbi s postavljanjem jednostavnog pitanja (desno) 📷 Bevan Koopman i Guido Zuccon — Tri tablice pokazuju učinkovitost ChatGPT-a kad se traže odgovori "Da/Ne" i "Da/Ne/Nisam siguran" na pitanja o dezinformacijama (lijevo); učinkovitost ChatGPT-a kad nakon preoblikovanja pitanja o dezinformacijama, na primjer "Može li X liječiti Y?" postaje "X ne može liječiti Y?" (u sredini) te kako poticanje temeljeno na dokazima mijenja odgovore ChatGPT-a u usporedbi s postavljanjem jednostavnog pitanja (desno) Bevan Koopman i Guido Zuccon

Međutim, kad dobije upit pristran na dokaze, točnost odgovora jezičnog modela smanjuje se na 63 posto. Točnost se ponovno smanjuje na samo 28 posto kad je dopušten odgovor "nesiguran". Ovo otkriće u suprotnosti je s uvriježenim mišljenjem da poticanje dokazima poboljšava točnost modela.

Netočne informacije

"Nismo sigurni zašto se to događa. Ali s obzirom na to da se to događa bez obzira na to jesu li dani dokazi točni ili ne, možda dokazi dodaju previše šuma, čime se smanjuje točnost", nagađaju istraživači.

https://t.co/NoCfawLRsa A world-first study has found that when asked a health-related question, the more evidence that is given to ChatGPT, the less reliable it becomes—reducing the accuracy of its responses to as low as 28%.
— Health365Info.com (@health365Info) April 4, 2024

"Interakcija između LLM-a i komponente pretraživanja još uvijek je slabo razumljiva i ne može se kontrolirati, što rezultira stvaranjem netočnih zdravstvenih informacija", upozoravaju australski istraživači koji su rezultate studije nedavno predstavili na konferenciji o obradi prirodnog jezika EMNLP. Sljedeći korak bit će istraživanje kako javnost koristi zdravstvene informacije koje generiraju LLM-ovi.

Vezano

📢 Uštedi 130€

META Quest 2

339,99€ ~~469,99€~~ Kupi

📢 Uštedi 10%

Samsung monitor

116,99€ ~~129,99€~~ Kupi

📢 NOVO!

EPOCH Galaxia

899,99€ Kupi

Zadnji komentari na forumu

gpd 6. travnja 2024.

coolinarika.com ? "pržite meso dok ne izgleda lijepo". zagorio mi gulaš.

gpd 6. travnja 2024.

Tko još misli da je chatGPT dobra stvar imam jedan challenge za vas. Morate pitati chatGPT da vam predloži recept za ručak. Zatim morate to skuhati doslovno kao što piše u receptu i pojesti.

Keso 6. travnja 2024.

Zaključili su da točnije odgovore dobijemo bacanjem novčića, tj. slučajnim odabirom. Tako pogodimo u 50% slučaja, dok chatGpt pogađa točno u 28% pitanja. Sramota. Ljudi mogu stradati zbog ovog jer vjeruju da je ai inteligentan i daje istinu.

Feudalac 6. travnja 2024.

Ma đubre izmišlja ovako i onako. Ne možeš mu vjerovati ni riječ.

Ronis Hi-Fi slušaonica na Velesajmu.

Rezervirajte svoj termin!

Želite doživjeti zvuk visoke kvalitete? Pridružite nam se u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Svestrani high-end Hi-Fi DAC.

TANGENT DAC II D/A pretvarač i pretpojačalo

Bluetooth 5.0 APTX Hd Sabre, Stereo Audio DAC, USB: 192kHz / 32-bit PCM (Stereo) – podržava DSD audio, 64/128/256/512, Opticki ulaz: 192kHz / 24-bit, Opticki izlaz: 192kHz / 24-bit

279 € Best Buy

Throw-back na ranije JBL receivere.

JBL SA750 integrirano pojačalo

Frekvencijski odziv 20Hz – 20kHz ± 1dB, nominalna osjetljivost: 1V, impedancija ulaza: 10kΩ, snaga izlaza na oba kanala pogonjena: 120W na 8Ω, 220W na 4Ω

2.499 € ~~2.999 €~~ Akcija

Za audio šmekere.

ACOUSTIC ENERGY AE109² zvučnici (par)

2.5-smjerni samostojeci zvucnik, frekvencijski raspon: 41Hz - 26kHz, crosssover frekvencija: : 275Hz, 2.5kHz, impedancija: 6 ohma, osjetljivost: 89dB, Peak SPL: 115dB, maksimalna snaga: 175W

692 € ~~769 €~~ Akcija

Kućno kino na samo dva zvučnika.

MARANTZ Stereo 70s receiver

75W po kanalu, 8K HDMI, dvostruki izlazi za subwoofer, HEOS® Built-in Multi-Room Streaming,

989 € Kupi

High-end performanse u kompaktnom dizajnu.

Stereo pojačalo PARASOUND HINT 6

2 x 160 W 8 Ohma. Burr Brown analog resistor ladder volume control. Dimmable front panel volume display. Updated USB receiver is Plug and play with Windows 10 and MAC.

3.999 € ~~4.999 €~~ Akcija

Aktivni subwoofer s jednostavnim podešavanjem.

Subwoofer ACOUSTIC ENERGY AE108²

Snaga: 150W, frekvencijski raspon: 30Hz - 110kHz, sealed box, Peak SPL: 105dB

539 € ~~599 €~~ Akcija

Poboljšana disperzija i veća snaga.

Zvučnici ACOUSTIC ENERGY AE300

2-sistemski zvucnici sa 130mm mid-bass jedinicama drivera, novim keramickim aluminijskim sandwich konusom i 28mm aluminijskim visokotoncem, frekvencijski raspon 45Hz -30kHz, osjetljivost 86 dB, vršni SPL 112dB, snaga 100W, crossover frekvencija 2.8kHz, impedancija 6 ohma.

719 € ~~799 €~~ Akcija

Best buy 8K receiver.

DENON AVR-X2800H AV receiver

7-kanalno pojačalo, 150 W po kanalu, 8K video, HEOS ugrađena tehnologija, Dolby Atmos® i DTS:X®, plus Dolby Surround i DTS Neural:X

799 € Kupi

San svakog audiofila.

Slušalice SENNHEISER HD 650

Max SPL: 103 dB na 1kHz/1 Vrms, THD: 0,05%, Impedancija: 300 ohm, Frekvencijski odaziv: 10 Hz - 39kHz, 6,35 mm TRS + 3,5 mm adapter

499 € Kupi

Idealan subwoofer za moderan dom.

BLUESOUND NODE streamer

Bluesound NODE otkljucava svijet hi-res streaming glazbe i multiroom zvuka kako bi stvorio moderan dodatak postojecim HiFi sustavima ili vašem omiljenom setu zvucnika s napajanjem.

650 € Best buy

Sinkronizirani light show