Umjetna inteligencija ruši rekorde u video igrama prisjećajući se prošlih rezultata
Umjetna inteligencija koja se može sjetiti svojih prethodnih uspjeha i pomoću njih stvarati nove strategije, rušila je rekorde u nekim od najtežih videoigara na klasičnim Atari konzolama
Mnogi sustavi umjetne inteligencije koriste podržano učenje (reinforcement learning), u kojem algoritam dobiva pozitivne ili negativne povratne informacije o svom napretku prema određenom cilju nakon svakog koraka, potičući ga prema određenom rješenju. Ovu tehniku koristila je i AI tvrtka DeepMind za trening AlphaGoa koji je 2016. pobijedio svjetskog prvaka u Go igrama.
Istraživački tim koji predvodi Adrien Ecoffet iz Uber AI Labsa i OpenAI-a pretpostavio je da takvi algoritmi često naiđu na potencijalne odgovore, ali ubrzo napuste trag u potrazi za nečim boljim te tako zanemare neka dobra rješenja. Njihova zapažanja objavljena su u časopisu Nature.
"Što radite kad o svom zadatku ne znate ništa? Ako samo mašete rukama, malo je vjerojatno da ćete ikad skuhati kavu", kaže Ecoffet.
Odskočna daska
Kako bi riješio ovaj problem, tim je stvorio algoritam koji pamti sve isprobane pristupe i stalno se vraća na najbolje trenutke; oni služe kao polazišna točka za nova istraživanja.
Softver pohranjuje snimke zaslona iz igre kako bi se prisjetio onoga što je pokušao. Slične slike grupiraju se kako bi se identificiralo točke u igri koje će im poslužiti kao "odskočna daska". Algoritmu je cilj maksimizirati rezultat i ažurirati zapis o početnoj točki nekog dijela igre.
Atari igre obično ne dopuštaju igračima da se vraćaju da odigrane dijelove igre. Zato su istraživači koristili emulator, softver koji oponaša Atari sustav, s dodanom sposobnošću spremanja statističkih podataka i ponovnog učitavanja prikupljenih informacija u bilo kojem trenutku. To znači da algoritam može započeti od bilo koje točke, a da pritom ne mora igrati igru od početka.
Algoritam su primijenili na 55 Atarijevih igara i pobijedili u 85,5 posto slučajeva. U Montezuminoj osveti algoritam je čak nadmašio prethodne rekorde, ljudske i softverske.
Dobitna kombinacija
Istraživači su uvježbali neuronsku mrežu da replicira strategiju i odigra igru na isti način, bez potrebe za emulatorom. Pokazalo se da je ovaj alternativni pristup računalno intenzivniji, jer je neuronskom mreža stvorila milijarde prizora tijekom rješavanja svake igre.
No, znanstvenici gledaju dalje i tvrde kako bi se ova dobitna kombinacija podržanog učenja i arhive sjećanja ubuduće mogla koristiti i za rješavanje puno složenijih problema, javlja New Scientist.