AI čarobnjak obučen na internetskim videozapisima

DeepMind je koristio golemi skup podataka za treniranje modela svijeta sastavljenog od 11 milijardi parametara

Mladen Smrekar petak, 1. ožujka 2024. u 06:40
Genie je sposoban pretvoriti mnoštvo različitih upita u interaktivna okruženja koja se mogu lako kreirati, istraživati ili se u njima igrati 📷 DeepMind
Genie je sposoban pretvoriti mnoštvo različitih upita u interaktivna okruženja koja se mogu lako kreirati, istraživati ili se u njima igrati DeepMind

DeepMindov Open-Endedness Team predstavio nam je ovih dana novo uzbudljivo rješenje na polju umjetne inteligencije. Njihov Genie prvo je generativno interaktivno okruženje umjetne inteligencije obučeno isključivo iz internetskih videa - i to više od 200.000 sati.

Značajni iskorak 

Prema najavi objavljenoj na X-u (bivši Twitter), Genie može generirati beskrajnu raznolikost 2D svjetova kontroliranih akcijom iz slikovnih upita. A to je, kažu, značajan iskorak u svijetu umjetne inteligencije. 

Igranje iz slikovnih upita: Genie se može potaknuti slikama generiranim modelima teksta u sliku, ručno nacrtanim skicama ili fotografijama iz stvarnog svijeta  📷 DeepMind
Igranje iz slikovnih upita: Genie se može potaknuti slikama generiranim modelima teksta u sliku, ručno nacrtanim skicama ili fotografijama iz stvarnog svijeta DeepMind

Tim je koristio golemi skup podataka iz 2D platformskih videozapisa za treniranje modela svijeta sastavljenog od 11 milijardi parametara. Genie je model koji uči različite latentne radnje na nenadgledan način i to mu omogućuje da oživi bilo koju sliku u 2D svijetu. Svoje mogućnosti pokazao je transformirajući skice mladih umjetnika Senece i Caspiana u interaktivna okruženja.

Tri trika iz rukava

Genie je, tvrdi se u radu "Genie: Generative Interactive Environments", sposoban pretvoriti mnoštvo različitih upita u interaktivna okruženja koja je  lako kreirati, u koja je lako ući i potom ih istraživati ili se u njima igrati. To je omogućeno putem latentnog akcijskog sučelja, koje se uči potpuno bez nadzora iz internetskih videa. 

Genie uzima okvire videozapisa kao ulaz, tokenizira ih u diskretne tokene putem video tokenizatora i zaključuje o latentnim radnjama između svakog okvira s modelom latentne akcije 📷 DeepMind
Genie uzima okvire videozapisa kao ulaz, tokenizira ih u diskretne tokene putem video tokenizatora i zaključuje o latentnim radnjama između svakog okvira s modelom latentne akcije DeepMind

Genie, kažu, ima tri važna trika u rukavu. Prvo, razumije vrijeme i prostor u videozapisima. Drugo, može predvidjeti što će se sljedeće dogoditi u videu. I treće, različite radnje uči na pametan način. To uključuje tjeranje likova da se kreću ili skaču, a da im nitko ne govori što da rade.

Potpuno novi svijet: Genie različite upite pretvara u interaktivna okruženja koja se mogu igrati i koja se mogu jednostavno kreirati, u njih se može ući i istraživati 📷 DeepMind
Potpuno novi svijet: Genie različite upite pretvara u interaktivna okruženja koja se mogu igrati i koja se mogu jednostavno kreirati, u njih se može ući i istraživati DeepMind

No, ni to nije sve: pokazujući im videozapise, Genie može i druga digitalna bića naučiti kako da se ponašaju. A to otvara vrata stvaranju stvarno pametnih digitalnih pomoćnika ili pomagača. kažu njegovi tvorci.

Znanost iza čarolije

U njegovoj izradi korišteni su i vremenski svjestan video tokenizer i model latentne akcije koji kodira prijelaze između okvira i MaskGIT dinamički model koji predviđa buduće okvire. Ova kombinacija, potaknuta opsežnim podacima i računalnom snagom, rezultirala je konačnim modelom s tih nevjerojatnih 11 milijardi parametara. Toliko je, naime, ideja Genie sposoban oblikovati.

Njegov utjecaj, kažu, nije ograničen na područje 2D. Model je naime obučen o robotskim podacima (RT-1), što bi trebalo pokazati njegov potencijal općeg svjetskog modela za opću umjetnu inteligenciju (AGI).