I Apple se bavi generativnom AI: izdali model koji uređuje slike na temelju teksta

Želite li urediti kakvu sliku ili ilustraciju, danas to možete učiniti putem nekog od uređivača slika, ali i uz pomoć umjetne inteligencije. Svoj primjer nedavno je objavio i Apple – potpuno besplatno

Sandro Vrbanus nedjelja, 11. veljače 2024. u 16:00

Apple se do sada nije pretjerano "petljao" u područje generativne umjetne inteligencije, pa se čini da ono najbolje što sigurno u tajnosti pripremaju čuvaju za neku od sljedećih nadogradnji iOS-a ili macOS-a (možda i visionOS-a). No, sve su glasnija šuškanja da se i u Cupertinu bave tehnologijama difuzije i transformerskim modelima, a nedavno je i Tim Cook u jednom intervjuu bio izjavio da bismo njihove prve pomake na tom polju mogli vidjeti tijekom godine.

Open source model

Protekloga tjedna Appleovi su stručnjaci ipak izišli u javnost s jednim AI modelom, i to sustavom za uređivanje slikovnih sadržaja na temelju tekstualnih uputa (promptova). Naziv modela je Multimodal Guided Image Editing (MGIE), a potpuno je otvorenog koda i dostupan kao projekt na GitHubu.

Stvar funkcionira onako kako bismo to i očekivali – potrebno je prvo multimodalnom modelu dati originalnu sliku (fotografiju, ilustraciju, crtež) te potom riječima, prirodnim jezikom, opisati što na njoj želimo izmijeniti. Dalje posao preuzima veliki jezični model, koji "razumijeva" naredbu, pomaže je pretvoriti u detaljnije upute za difuzijski model, koji će potom vizualizirati novu sliku – s primijenjenim promjenama.

Okreni, izmijeni, dodaj, izbriši

Primjeri pokazuju da su za rad MGIE-a dovoljne i vrlo kratke upute, poput "pretvori noć u dan", "od kuće napravi dvorac", "promijeni boju kose u crvenu", "dodaj preljev od jagode na kolače", "ukloni ljude iz pozadine" i tome slične. Rezultati su, kao što to biva s genAI modelima, promjenjivi te ovise o kvaliteti originalne slike i želji korisnika, no može se primijetiti da sustav prilično dobro prepoznaje kontekst i stil slike, pa ih prilično kvalitetno oponaša u sintezi varijacija.

Osim intervencija u sadržaj slika, isti model u stanju je manipulirati njima u smislu obrezivanja, rotiranja, dodavanja filtera, promjene veličine, kontrasta, boje i slično – dakle, zna učiniti sve za što biste nekada koristili Photoshop i slične tradicionalne alate. Želite li i sami iskušati što je to u Appleu osmišljeno u domeni generativne umjetne inteligencije, demo modela MGIE postavljen je na Hugging Face i dostupan je na ovom mjestu.