Midjourney je predstavio novu, „obrnutu AI-naredbu“: generator slike u tekst

Tek smo se započeli igrati i ozbiljnije koristiti inovativni AI-sustav koji izrađuje slike na temelju tekstualnog opisa, a Midjourney, jedan od pionira te tehnologije, već uvodi novu „igračku“: generiranje tekstualnog opisa iz ponuđenih slika

Igor Berecki nedjelja, 9. travnja 2023. u 06:00

Midjourney je upravo objavio novu naredbu „/describe“ koja korisnicima omogućuje da ovu moćnu platformu umjetne inteligencije iskoriste za obrtanje dosadašnje funkcije stvaranja slika iz tekstualnog opisa: uz „/describe“ Midjourney će izraditi tekstualni opis slike koju mu korisnik uploada.

Drag-and-drop slike u tekst

Prve reakcije onih koji su iskušali ovu inovaciju su većinom vrlo pozitivne, a u komentarima se ističe kako /describe ima velik potencijal praktične primjenjivosti. Jedan od najistaknutijih aspekata naredbe /describe jest mogućnost upotrebe u postupcima koji olakšavaju korištenje interneta osobama s oštećenjem vida, kojima navigacija webom može biti vrlo zahtjevna. Kod slabovidnih i slijepih osoba problem čitanja teksta riješen je sintetizatorima govora (text-to-speech), a slike su prezentirane tzv. alt-tekstom, riječima koje opisuju „što se na slici vidi“. I ne samo za osobe slabijeg vida, jer svi pretraživački algoritmi znatno bolje i učinkovitije indeksiraju i pretražuju slike koje imaju detaljnije, bolje i opširnije opise. No, takvi opisni, alt-tekstualni elementi se pri dizajniranju web-sadržaja izrađuju i slikama dodaju „ručno“, što oduzima puno vremena i podložno je subjektivnom doživljaju onoga tko opisuje sliku.

U svojoj trenutnoj iteraciji primjene naredbe /describe, Midjourney će, baš kao i u slučaju generatora teksta u sliku, stvoriti četiri različita tekstualna opisa učitane slike, a moguće je i generirati nove varijacije na temelju opisa odabranog između te četiri ponude.

Postupak je zaista simplificiran: u promptu (naredbenom retku) Midjourneya samo napišete “/describe” i pojavit će se polje za učitavanje slike koju potom možete u Midjourney ubaciti uploadanjem iz svoje arhive ili još jednostavnije - „drag and dropom“. Nakon što umjetna inteligencija odradi svoj dio „čitanja“ sadržaja slike, ponudit će vam četiri generirana opisa, od kojih možete odabrati jedan i iskoristiti ga kao ulaznu naredbu kojom ćete napraviti „remiks“ (točnije, četiri nove verzije) originalno učitane slike. Štoviše, prethodno možete urediti, dopuniti ili izmijeniti tekst kojega vam je /describe ponudio, što vašem kreativnom procesu daje novi element kontrole.

Dakle, nova opcija generiranja slike u tekst daje Midjourneyu mogućnost stvaranja vrlo zanimljivih „kružnih petlji“ s klasičnim Midjourneyovim AI-sustavom, onim koji pretvara tekst u sliku.

Za one kojima sve treba nacrtati

Ako vam ovaj opis funkcije /describe nije dovoljno slikovit i jasan (što je lako moguće, jer autor ovog teksta kronično pati od potrebe za nepotrebnim kompliciranjem), najbolje će biti da vam sve to predstavimo slikovito, na nekoliko primjera.

Za testiranje nove funkcije korištena je ova fotografija koju je snimio Jaron Schneider koristeći Tamron 35mm f/1.8 prime.

Nakon upisa naredbe /describe, fotografija je "drag-and-dropana" u predviđeni okvir kojega je Midjourney ponudio, a potom u roku od par desetaka sekundi sintetizirao četiri tekstualna opisa onoga što je njegova umjetna inteligencija vidjela na fotografiji:

  • young woman in polka dot dress standing on top of hill, in the style of pensive portraiture, lens flares, voigtlander heliar 15mm f/4.5, troubadour style, close up, calarts, simple
  • a young woman wearing a black and white polka dot dress standing, in the style of hazy landscapes, pensive portraiture, sun-soaked colors, candid portraiture, tumblewave, troubadour style, close up
  • a young woman in black and white checkered dress standing on slope of hill, in the style of anamorphic lens flare, polka dots, california plein air, pensive stillness, sun-soaked colors, candid portraits, delicate
  • leigh wyatt | san francisco weddings|daughtersmaidsoflake benson | san francisco, in the style of neo-pop sensibility, gentle lyricism

Prva dva opisa se čine dosta dobra, pogotovo onaj drugi, kojega su u ovom testu iskoristili kako bi na temelju njega generirali četiri „remiksa“, s prilično impresivnim rezultatima. Pogledajmo što je Midjourney generirao na temelju prompta „a young woman wearing a black and white polka dot dress standing, in the style of hazy landscapes, pensive portraiture, sun-soaked colors, candid portraiture, tumblewave, troubadour style, close up“

Iteracije pejzaža

Drugi primjer je ponovo real-life fotografija, ovoga puta pejzaž s američkog jezera Mono (autor je također Jaron Schneider). 

Midjourney je nakon naredbe /describe i uploada slike generirao četiri većinom vrlo precizna tekstualna opisa.

  • mono lake, las vegas, utah, united states of america near crystal, in the style of shot on 70mm, mikalojus konstantinas ciurlionis, post processing, 32k uhd, antoni gaudí, hazy landscapes, fenghua zhong
  • mono lake at sunset after a rain, in the style of focus stacking, light sky-blue and bronze, 32k uhd, national geographic photo, stock photo, dansaekhwa
  • mono lake, utah, in the style of 32k uhd, balanced symmetry, american tonalist, hazy, dreamlike quality, nikon d850, fenghua zhong
  • mono lake, california, sunrise photograph 1, in the style of 32k uhd, isolated landscapes, low depth of field

Koristeći treći opis (mono lake, utah, in the style of 32k uhd, balanced symmetry, american tonalist, hazy, dreamlike quality, nikon d850, fenghua zhong) kao prompt za remiks, Midjourney je izradio četiri vrlo realistične nove slike:

Mozak u krošnji, krošnja u mozgu

I naposlijetku, igrama naizgled nema kraja! Recimo, napišete opis slike kakvu želite da vam Midjourney generira, primjerice „an illustration of a brain with tree roots, psychedelic art, vibrant, by Alex Grey, by Amanda Sage, by Robert Venosa, neon colors“ i potom od četiri ponuđene odaberete onu koja vam se najviše dopada, npr. ovu:

U idućem koraku, naredite Midjourneyu da tekstualno opiše sliku koju je maloprije generirao na temelju vašeg zadanog teksta. Od četiri ponuđena opisa koje Midjourney izradi nakon naredbe /describe, odaberete jedan za koji vam se čini da najbolje opisuje vašu prvu ideju stvaranja psihodelične slike drveta čija krošnja nalikuje ljudskom mozgu – u ovom slučaju to je Midjourneyjev tekst

  • an image of an abstract brain tree with roots, in the style of mark henson, luminous colors, dark symbolism, detailed anatomy, bold lines, vibrant color, psychological phenomena illustrations, chiaroscuro woodcuts

i potom taj zaista detaljan opis kakvoga bi malotko od nas laika znao formulirati, ponovo vratite u proces: „ubacite“ ga kao prompt za izradu četiri nove iteracije vaše slike. Rezultat je- barem meni – još bolji i atraktivniji:

Midjourneyev /describe alat je intrigantan, čak i u svom ranom stadiju. Alat bi trebao pomoći kreatorima da naprave detaljniji Alt-tekst, opise, pa čak i različite umjetničke radove generirane umjetnom inteligencijom. Premda su neki dijelovi opisa pomalo konfuzni i zbunjujući, definitivno je riječ o AI-konceptu koji obećava puno više kreativnosti i korisnosti u izradi računalno generiranih ilustracija.