AI i dalje ne ispunjava očekivanja – što je istina, a što PR?

Nova studija na izvođenju matematičkih dokaza korištenjem umjetne inteligencije pokazuje zašto AI modeli sa simuliranim zaključivanjem ne ispunjavaju očekivanja

Drago Galić nedjelja, 27. travnja 2025. u 14:05

Prema pisanju Engadgeta, a koji prenosi studiju „Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad“ u srži današnjih najsposobnijih AI modela koji navodno zaključuju postoji zanimljiva kontradikcija: mogu rješavati rutinske matematičke probleme s impresivnom točnošću, ali kada se suoče s formuliranjem dubljih matematičkih dokaza kakvi se nalaze u natjecateljskim izazovima, često ne uspijevaju.

Studija proučava matematička ograničenja SR modela (simulated reasoning – simulirano razmišljanje), koja postoje unatoč marketinškim tvrdnjama proizvođača AI sustava.

Modeli simuliranog zaključivanja razlikuju se od tradicionalnih velikih jezičnih modela jer su trenirani za prikazivanje postupnog procesa "razmišljanja" za rješavanje problema. Valja imati na umu da usprkos simulaciji razmišljanja, ovi modeli ne zaključuju koristeći iste tehnike kao ljudi.

U gornjoj studiji se navodi primjer kada su istraživači predstavili SR modelima probleme s Matematičke olimpijade SAD-a 2025., većina modela postigla je manje od 5 posto točnih odgovora u prosjeku pri generiranju potpunih matematičkih dokaza. Ovaj rezultat predstavlja prosječni postotak ukupno mogućih bodova koje su modeli postigli kroz više pokušaja.

Za razumijevanje važnosti ovog jaza u sposobnostima, potrebno je razumjeti razliku između odgovaranja na matematičke probleme i matematičkih dokaza. Matematički problemi traže samo točan odgovor, poput "Koliko je 2+2?" Matematički dokazi zahtijevaju objašnjenje zaključivanja i pokazivanje zašto nešto mora biti istinito.

Istraživači su evaluirali nekoliko AI modela na šest problema s USAMO 2025. Ti modeli uključivali su Qwenov QwQ-32B, DeepSeek R1, Googleov Gemini 2.0 Flash Thinking i Gemini 2.5 Pro, OpenAI-jev o1-pro i o3-mini-high, Anthropicov Claude 3.7 Sonnet i xAI-jev Grok 3.

Googleov Gemini 2.5 Pro postigao je viši prosječni rezultat od 10,1 od 42 boda (~24 posto), dok su ostali modeli pokazali znatno lošije rezultate: DeepSeek R1 i Grok 3 prosječno su postigli 2,0 boda svaki, Googleov Flash-Thinking postigao je 1,8, Anthropicov Claude 3.7 postigao je 1,5, dok su Qwenov QwQ i OpenAI-jev o1-pro oba prosječno postigli 1,2 boda. OpenAI-jev o3-mini imao je najniži rezultat od samo 0,9 bodova.

Iako OpenAI-jevi noviji modeli nisu ispitani u ovoj studiji, mjerenja na web stranici MathArena pokazuju da o3-high postiže 21,73 posto ukupno, a o4-mini-high 19,05 posto na USAMO. Međutim, ti su rezultati potencijalno kontaminirani jer su mjereni nakon održavanja natjecanja.

📷 Izvor: MathArena
Izvor: MathArena

Istraživači su identificirali nekoliko ključnih obrazaca neuspjeha. Odgovori umjetne inteligencije sadržavali su logičke praznine gdje je nedostajalo matematičko opravdanje, uključivali su argumente temeljene na nedokazanim pretpostavkama i nastavili su proizvoditi netočne pristupe unatoč kontradiktornim rezultatima.

U tipičnom stilu velikih jezičnih modela svi su često davali netočna rješenja koristeći afirmativni jezik, ne pokazujući nikakvu naznaku nesigurnosti ili "svijesti" o pogreškama u svom simuliranom procesu zaključivanja, čak i kada su dokazi sadržavali značajne nedostatke.

Istraživači su sugerirali da bi ovi neuspjesi mogli proizlaziti iz načina na koji se modeli treniraju i optimiziraju. Primijetili su artefakte koji vjerojatno proizlaze iz strategija optimizacije uobičajenih u treniranju. Modeli su ponekad netočno nametali ograničenja vezana uz pronalaženje konačnog odgovora ili su pretjerano generalizirali obrasce viđene u malim primjerima.

Jaz u performansama između matematičkih problema i dokaza otkriva razliku između prepoznavanja obrazaca i pravog matematičkog zaključivanja. Trenutni SR modeli dobro funkcioniraju na zadacima gdje se slični obrasci pojavljuju u podacima za treniranje. Ali nedostaje im dublje "konceptualno razumijevanje" potrebno za matematiku temeljenu na dokazima.

Zašto onda "lanac misli" i simulirano zaključivanje poboljšavaju rezultate? Odgovor leži u onome što istraživači nazivaju skaliranjem "računanja u vrijeme zaključivanja". Kada LLM-ovi koriste tehnike lanca misli, posvećuju više računalnih resursa za prolazak kroz svoj latentni prostor u manjim, usmjerenijim koracima. Svaki međukorak zaključivanja služi kao kontekst za sljedeći, učinkovito ograničavajući izlaze modela.

U suštini, svi AI modeli temeljeni na transformerima su strojevi za prepoznavanje obrazaca. Oni posuđuju vještine zaključivanja iz primjera u podacima koje istraživači koriste za njihovo stvaranje. To objašnjava zanimljiv obrazac u olimpijskoj studiji: ovi modeli izvrsni su u standardnim problemima gdje su postupni postupci dobro definirani, ali se bore s dokazima koji zahtijevaju razumijevanje problema koji već nije riješen u modelima na kojima je model treniran.