GPT-4.5 - prvi AI koji je prošao Turingov test

Najnoviji chatbot uvjerio većinu ispitivača da je čovjek, otvarajući nova pitanja o granicama i budućnosti umjetne inteligencije.

Mladen Smrekar petak, 18. travnja 2025. u 13:55
nekima iznenađujuće, ali GPT-4.5 je uspio prevariti ispitivače u čak 73 posto slučajeva 📷 Freepik
nekima iznenađujuće, ali GPT-4.5 je uspio prevariti ispitivače u čak 73 posto slučajeva Freepik

Nedavno objavljena preprint studija znanstvenika Kalifornijskog sveučilišta u San Diegu izazvala je veliko zanimanje u znanstvenoj i tehnološkoj zajednici. U radu pohranjenom na arXivu, istraživači Cameron Jones i Benjamin Bergen tvrde da je najnoviji jezični model GPT-4.5 prvi AI sustav koji je dosljedno prošao Turingov test, klasičnu provjeru sposobnosti stroja da imitira ljudsku inteligenciju u tekstualnoj komunikaciji.

Izbor razgovora između ljudskih ispitivača (zeleno) i svjedoka (sivo). Jedan od ova četiri razgovora je sa ljudskim svjedokom, ostali su s AI 📷 Cameron Jones i Benjamin Bergen
Izbor razgovora između ljudskih ispitivača (zeleno) i svjedoka (sivo). Jedan od ova četiri razgovora je sa ljudskim svjedokom, ostali su s AI Cameron Jones i Benjamin Bergen

U središtu istraživanja nalazi se eksperiment u kojem su četiri različita jezična modela, uključujući GPT-4.5, trebala uvjeriti ispitivače da su i oni ljudi. Sudionici eksperimenta sudjelovali su u 500 interakcija, pri čemu su kroz tekstualno sučelje istovremeno komunicirali s AI modelom i stvarnom osobom. Svaki ispitivač imao je pet minuta da na temelju razmjene poruka zaključi tko je čovjek, a tko stroj.

Klasifikacija strategija koje koriste ispitivači prema udjelu igara (lijevo) i srednjoj točnosti igara u kojima su strategije primijenjene (desno) 📷 Cameron Jones i Benjamin Bergen
Klasifikacija strategija koje koriste ispitivači prema udjelu igara (lijevo) i srednjoj točnosti igara u kojima su strategije primijenjene (desno) Cameron Jones i Benjamin Bergen

Rezultati su bili iznenađujući: GPT-4.5 uspio je prevariti ispitivače u čak 73 posto slučajeva, što je više od uspješnosti samih ljudskih sudionika. Ključ ovog uspjeha, navode autori, bio je u pažljivo dizajniranom persona promptu, uputama modelu da se ponaša poput introvertirane mlade osobe koja koristi tipični internetski žargon. Ostali testirani modeli, poput LLaMa-3.1 i GPT-4o, ostvarili su znatno slabije rezultate, dok je povijesni chatbot ELIZA bio prepoznat kao stroj u gotovo svim slučajevima.

Prolaznost (lijevo) i povjerenje ispitivača (desno) 📷 Cameron Jones and Benjamin Bergen
Prolaznost (lijevo) i povjerenje ispitivača (desno) Cameron Jones and Benjamin Bergen

Ova studija ponovno otvara pitanje što zapravo znači "proći Turingov test" i koliko je taj kriterij relevantan za procjenu stvarne inteligencije stroja. Istraživači naglašavaju da eksperiment mjeri sposobnost imitacije, a ne razumijevanja ili svjesnosti.