Previše dokaza zbunjuje velike jezične modele
Što je veća količina dokaza kojemu predočite, to ChatGPT postaje manje pouzdan u davanju točnih odgovora
Možda je iznenađujuće, ali je istinito: kad mu se postavi pitanje vezano za zdravlje, ChatGPT postaje manje pouzdan s količinom dokaza koje mu se predočuje, a točnost njegovih odgovora u nekim se slučajevima smanjuje se na samo 28 posto, otkrila je prva svjetska studija tog tipa.
Stotinu pitanja
Naime, istraživači australske nacionalne znanstvene agencije CSIRO i Sveučilišta Queensland istražili su hipotetski scenarij u kojem prosječni korisnik zdravstvenih usluga, bez posebnog znanja o medicini, pita ChatGPT ima li neko liječenje pozitivan učinak na određeno zdravstveno stanje.
Stotinu postavljenih pitanja varirala su od "može li cink pomoći u liječenju prehlade?" do "hoće li ispijanje octa otopiti zaglavljenu riblju kost?". Odgovor ChatGPT-a uspoređivan je s poznatim točnim odgovorom, odnosno "osnovnom istinom" temeljenom na postojećem medicinskom znanju.
Popularnost i rizici
Iako su rizici traženja zdravstvenih informacija online dobro dokumentirani, ljudi i dalje traže zdravstvene informacije na Internetu i pritom se sve više koriste alatima kao što je ChatGPT.
"Široka popularnost korištenja LLM-a za odgovore o zdravlju ljudi razlog je zašto nam je potrebno kontinuirano istraživanje kako bismo informirali javnost o rizicima i kako bismo im pomogli da optimiziraju točnost svojih odgovora", kažu istraživači. "Iako LLM-ovi imaju potencijal uvelike poboljšati način na koji ljudi pristupaju informacijama, potrebno nam je više istraživanja kako bismo shvatili gdje su učinkoviti, a gdje nisu."
Problemi s dokazima
Studija je uključila dvije vrste pitanja jednostavna i ona pristrana s potkrjepljujućim ili suprotnim dokazima. Rezultati, objavljeni u ACL Anthology otkrili su da je ChatGPT prilično dobar u davanju točnih odgovora u formatu jednostavnih pitanja na koja točne odgovore daje u 80 posto slučajeva.
Međutim, kad dobije upit pristran na dokaze, točnost odgovora jezičnog modela smanjuje se na 63 posto. Točnost se ponovno smanjuje na samo 28 posto kad je dopušten odgovor "nesiguran". Ovo otkriće u suprotnosti je s uvriježenim mišljenjem da poticanje dokazima poboljšava točnost modela.
Netočne informacije
"Nismo sigurni zašto se to događa. Ali s obzirom na to da se to događa bez obzira na to jesu li dani dokazi točni ili ne, možda dokazi dodaju previše šuma, čime se smanjuje točnost", nagađaju istraživači.
"Interakcija između LLM-a i komponente pretraživanja još uvijek je slabo razumljiva i ne može se kontrolirati, što rezultira stvaranjem netočnih zdravstvenih informacija", upozoravaju australski istraživači koji su rezultate studije nedavno predstavili na konferenciji o obradi prirodnog jezika EMNLP. Sljedeći korak bit će istraživanje kako javnost koristi zdravstvene informacije koje generiraju LLM-ovi.