MAGE spaja prepoznavanje i generiranje slike

MIT-ov Masked Generative Encoder (MAGE) može istovremeno točno identificirati slike i stvarati nove, nevjerojatno nalik stvarnima

Mladen Smrekar subota, 1. srpnja 2023. u 21:00
MAGE su zajedničkim snagama osmislili stručnjaci iz Googlea i MIT-ovog Laboratorija za računalnu znanost i umjetnu inteligenciju 📷 Alex Schipps/MIT CSAIL
MAGE su zajedničkim snagama osmislili stručnjaci iz Googlea i MIT-ovog Laboratorija za računalnu znanost i umjetnu inteligenciju Alex Schipps/MIT CSAIL

Kad se spominju slike, računala posjeduju dvije izvanredne sposobnosti: mogu ih identificirati i ponovno generirati. A sad su istraživači MIT-ovog Laboratorija za računalnu znanost i umjetnu inteligenciju (CSAIL) istrenirali sustav tako da može sam zaključiti koji dijelovi slike nedostaju, što je zadatak koji zahtijeva duboko razumijevanje sadržaja slike. Uspješno popunjavajući praznine, Masked Generative Encoder (MAGE) postiže dva cilja u isto vrijeme: točno identificira slike i stvara nove, nevjerojatno nalik stvarnima.  

Semantički tokeni

Predstavljen na konferenciji o računalnom vidu i prepoznavanju uzoraka CVPR 2023, MAGE omogućuje bezbroj potencijalnih primjena, poput identifikacije i klasifikacije objekata unutar slika, brzog učenja iz minimalnih primjera, stvaranja slika pod specifičnim uvjetima i poboljšanja postojećih slika.

Rezultati rekonstrukcije pomoću MAE i MAGE s omjerom maskiranja 75%. MAE rekonstruira mutne slike niske kvalitete, dok MAGE može rekonstruirati visokokvalitetne slike s detaljima i dodatno poboljšava kvalitetu kroz iterativno dekodiranje 📷 MIT CSAIL
Rezultati rekonstrukcije pomoću MAE i MAGE s omjerom maskiranja 75%. MAE rekonstruira mutne slike niske kvalitete, dok MAGE može rekonstruirati visokokvalitetne slike s detaljima i dodatno poboljšava kvalitetu kroz iterativno dekodiranje MIT CSAIL

Za razliku od drugih tehnika, MAGE ne radi s neobrađenim pikselima. Umjesto toga, on pretvara slike u "semantičke tokene", kompaktne, ali apstraktne verzije dijelova slike. Baš kao što riječi tvore rečenice, ovi tokeni stvaraju apstrahiranu verziju slike koja se može koristiti za složene zadatke obrade, a istovremeno čuva informacije u izvornoj slici. To se može uvježbati unutar samonadziranog okvira, što mu omogućuje preduvježbavanje na velikim skupovima podataka slika bez oznaka. 

Modeliranje maskiranog tokena

Čarolija počinje kada MAGE počne koristiti "modeliranje maskiranog tokena". On nasumično skriva neke od tih tokena, stvarajući nepotpunu slagalicu, a zatim trenira neuronsku mrežu da popuni praznine. Tako uči razumjeti uzorke na slici i generirati nove.

MAGE Framework 📷 MIT CSAIL
MAGE Framework MIT CSAIL

MAGE može generirati realistične slike od nule, ali to nije sve: korisnici mogu odrediti kriterije po kojima će im MAGE generirati odgovarajuću sliku. Nije mu problem ni uređivati slike tako što će s njih ukloniti razne elemente, zadržavajući pritom njihov realističan izgled.

Impresivni reztultati

Zadaci prepoznavanja još su jedna jača strana za MAGE. Sa svojom sposobnošću prethodnog treniranja na velikim neoznačenim skupovima podataka, može klasificirati slike koristeći samo naučene prikaze. Štoviše, ističe se u učenju u nekoliko koraka, postižući impresivne rezultate na velikim skupovima podataka o slikama poput iMAGeNeta sa samo nekoliko označenih primjera.

Slike koje je generirao MAGE 📷 MIT CSAIL
Slike koje je generirao MAGE MIT CSAIL

Dakako, proces pretvaranja slika u tokene neizbježno dovodi do gubitka nekih informacija pa istraživači žele istražiti načine komprimiranja slika bez gubitka važnih detalja. Buduće istraživanje moglo bi uključivati i ​​obuku MAGE-a na većim neoznačenim skupovima podataka, što bi moglo dovesti do još boljih performansi.