Midjourney je predstavio novu, „obrnutu AI-naredbu“: generator slike u tekst

Tek smo se započeli igrati i ozbiljnije koristiti inovativni AI-sustav koji izrađuje slike na temelju tekstualnog opisa, a Midjourney, jedan od pionira te tehnologije, već uvodi novu „igračku“: generiranje tekstualnog opisa iz ponuđenih slika

Igor Berecki nedjelja, 9. travnja 2023. u 06:00

Midjourney je upravo objavio novu naredbu „/describe“ koja korisnicima omogućuje da ovu moćnu platformu umjetne inteligencije iskoriste za obrtanje dosadašnje funkcije stvaranja slika iz tekstualnog opisa: uz „/describe“ Midjourney će izraditi tekstualni opis slike koju mu korisnik uploada.

Drag-and-drop slike u tekst

Prve reakcije onih koji su iskušali ovu inovaciju su većinom vrlo pozitivne, a u komentarima se ističe kako /describe ima velik potencijal praktične primjenjivosti. Jedan od najistaknutijih aspekata naredbe /describe jest mogućnost upotrebe u postupcima koji olakšavaju korištenje interneta osobama s oštećenjem vida, kojima navigacija webom može biti vrlo zahtjevna. Kod slabovidnih i slijepih osoba problem čitanja teksta riješen je sintetizatorima govora (text-to-speech), a slike su prezentirane tzv. alt-tekstom, riječima koje opisuju „što se na slici vidi“. I ne samo za osobe slabijeg vida, jer svi pretraživački algoritmi znatno bolje i učinkovitije indeksiraju i pretražuju slike koje imaju detaljnije, bolje i opširnije opise. No, takvi opisni, alt-tekstualni elementi se pri dizajniranju web-sadržaja izrađuju i slikama dodaju „ručno“, što oduzima puno vremena i podložno je subjektivnom doživljaju onoga tko opisuje sliku.

U svojoj trenutnoj iteraciji primjene naredbe /describe, Midjourney će, baš kao i u slučaju generatora teksta u sliku, stvoriti četiri različita tekstualna opisa učitane slike, a moguće je i generirati nove varijacije na temelju opisa odabranog između te četiri ponude.

Postupak je zaista simplificiran: u promptu (naredbenom retku) Midjourneya samo napišete “/describe” i pojavit će se polje za učitavanje slike koju potom možete u Midjourney ubaciti uploadanjem iz svoje arhive ili još jednostavnije - „drag and dropom“. Nakon što umjetna inteligencija odradi svoj dio „čitanja“ sadržaja slike, ponudit će vam četiri generirana opisa, od kojih možete odabrati jedan i iskoristiti ga kao ulaznu naredbu kojom ćete napraviti „remiks“ (točnije, četiri nove verzije) originalno učitane slike. Štoviše, prethodno možete urediti, dopuniti ili izmijeniti tekst kojega vam je /describe ponudio, što vašem kreativnom procesu daje novi element kontrole.

Dakle, nova opcija generiranja slike u tekst daje Midjourneyu mogućnost stvaranja vrlo zanimljivih „kružnih petlji“ s klasičnim Midjourneyovim AI-sustavom, onim koji pretvara tekst u sliku.

Za one kojima sve treba nacrtati

Ako vam ovaj opis funkcije /describe nije dovoljno slikovit i jasan (što je lako moguće, jer autor ovog teksta kronično pati od potrebe za nepotrebnim kompliciranjem), najbolje će biti da vam sve to predstavimo slikovito, na nekoliko primjera.

Za testiranje nove funkcije korištena je ova fotografija koju je snimio Jaron Schneider koristeći Tamron 35mm f/1.8 prime.

Nakon upisa naredbe /describe, fotografija je "drag-and-dropana" u predviđeni okvir kojega je Midjourney ponudio, a potom u roku od par desetaka sekundi sintetizirao četiri tekstualna opisa onoga što je njegova umjetna inteligencija vidjela na fotografiji:

young woman in polka dot dress standing on top of hill, in the style of pensive portraiture, lens flares, voigtlander heliar 15mm f/4.5, troubadour style, close up, calarts, simple
a young woman wearing a black and white polka dot dress standing, in the style of hazy landscapes, pensive portraiture, sun-soaked colors, candid portraiture, tumblewave, troubadour style, close up
a young woman in black and white checkered dress standing on slope of hill, in the style of anamorphic lens flare, polka dots, california plein air, pensive stillness, sun-soaked colors, candid portraits, delicate
leigh wyatt | san francisco weddings|daughtersmaidsoflake benson | san francisco, in the style of neo-pop sensibility, gentle lyricism

Prva dva opisa se čine dosta dobra, pogotovo onaj drugi, kojega su u ovom testu iskoristili kako bi na temelju njega generirali četiri „remiksa“, s prilično impresivnim rezultatima. Pogledajmo što je Midjourney generirao na temelju prompta „a young woman wearing a black and white polka dot dress standing, in the style of hazy landscapes, pensive portraiture, sun-soaked colors, candid portraiture, tumblewave, troubadour style, close up“

Iteracije pejzaža

Drugi primjer je ponovo real-life fotografija, ovoga puta pejzaž s američkog jezera Mono (autor je također Jaron Schneider).

Midjourney je nakon naredbe /describe i uploada slike generirao četiri većinom vrlo precizna tekstualna opisa.

mono lake, las vegas, utah, united states of america near crystal, in the style of shot on 70mm, mikalojus konstantinas ciurlionis, post processing, 32k uhd, antoni gaudí, hazy landscapes, fenghua zhong
mono lake at sunset after a rain, in the style of focus stacking, light sky-blue and bronze, 32k uhd, national geographic photo, stock photo, dansaekhwa
mono lake, utah, in the style of 32k uhd, balanced symmetry, american tonalist, hazy, dreamlike quality, nikon d850, fenghua zhong
mono lake, california, sunrise photograph 1, in the style of 32k uhd, isolated landscapes, low depth of field

Koristeći treći opis (mono lake, utah, in the style of 32k uhd, balanced symmetry, american tonalist, hazy, dreamlike quality, nikon d850, fenghua zhong) kao prompt za remiks, Midjourney je izradio četiri vrlo realistične nove slike:

Mozak u krošnji, krošnja u mozgu

I naposlijetku, igrama naizgled nema kraja! Recimo, napišete opis slike kakvu želite da vam Midjourney generira, primjerice „an illustration of a brain with tree roots, psychedelic art, vibrant, by Alex Grey, by Amanda Sage, by Robert Venosa, neon colors“ i potom od četiri ponuđene odaberete onu koja vam se najviše dopada, npr. ovu:

U idućem koraku, naredite Midjourneyu da tekstualno opiše sliku koju je maloprije generirao na temelju vašeg zadanog teksta. Od četiri ponuđena opisa koje Midjourney izradi nakon naredbe /describe, odaberete jedan za koji vam se čini da najbolje opisuje vašu prvu ideju stvaranja psihodelične slike drveta čija krošnja nalikuje ljudskom mozgu – u ovom slučaju to je Midjourneyjev tekst

an image of an abstract brain tree with roots, in the style of mark henson, luminous colors, dark symbolism, detailed anatomy, bold lines, vibrant color, psychological phenomena illustrations, chiaroscuro woodcuts

i potom taj zaista detaljan opis kakvoga bi malotko od nas laika znao formulirati, ponovo vratite u proces: „ubacite“ ga kao prompt za izradu četiri nove iteracije vaše slike. Rezultat je- barem meni – još bolji i atraktivniji:

Midjourneyev /describe alat je intrigantan, čak i u svom ranom stadiju. Alat bi trebao pomoći kreatorima da naprave detaljniji Alt-tekst, opise, pa čak i različite umjetničke radove generirane umjetnom inteligencijom. Premda su neki dijelovi opisa pomalo konfuzni i zbunjujući, definitivno je riječ o AI-konceptu koji obećava puno više kreativnosti i korisnosti u izradi računalno generiranih ilustracija.

Vezano

📢 Uštedi 130€

META Quest 2

339,99€ ~~469,99€~~ Kupi

📢 Uštedi 10%

Samsung monitor

116,99€ ~~129,99€~~ Kupi

📢 NOVO!

EPOCH Galaxia

899,99€ Kupi

Ronis Hi-Fi slušaonica na Velesajmu.

Rezervirajte svoj termin!

Želite doživjeti zvuk visoke kvalitete? Pridružite nam se u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Novi dodatak nagradivanoj obitelji LSX.

Bežični Hi-Fi zvučnici KEF LSX II LT

Dizajniran kao pojednostavljena verzija, LSX II LT dijeli isti High-Fidelity zvuk i kljucne tehnologije kao LSX II, po cijeni koja ce vam se svidjeti.

999 € Kupi

Za zahtjevne ljubitelje glazbe.

Stereo pojačalo ROKSAN K3

Snaga od 140 W (RMS) po kanalu (na 8 Ohma) i vrhunski cvrst i kontroliran bas pružaju široku detaljnu pozornicu zvuka za istinsko glazbeno iskustvo. Za optimalnu kvalitetu zvuka i pouzdanost koriste se visokokvalitetne komponente, tiskane plocice i transformatori.

1.449 € ~~1.563 €~~ Akcija

Snažan zvuk iz elegantnog kućišta.

Zvučnici ACOUSTIC ENERGY AE120²

3-smjerni floorstander, impedancija 6 ohma, osjetlivost 90dB, frekvencijski odziv: 39Hz - 26kHz, snaga pojačala: 200W, peak SPL: 116dB

956 € ~~1.062 €~~ Kupi

Doživite analognu glazbu kao nikada prije.

Gramofon CROSLEY C6 matt crni

Gramofon s 2 brzine, 7", 10" i 12" ploča, remenski pogon, RCA out, Bluetooth out, anti-skate prilagodba.

229 € ~~249 €~~ Akcija

High-end performanse u kompaktnom dizajnu.

Stereo pojačalo PARASOUND HINT 6

2 x 160 W 8 Ohma. Burr Brown analog resistor ladder volume control. Dimmable front panel volume display. Updated USB receiver is Plug and play with Windows 10 and MAC.

3.999 € ~~4.999 €~~ Akcija

Aktivni subwoofer s jednostavnim podešavanjem.

Subwoofer ACOUSTIC ENERGY AE108²

Snaga: 150W, frekvencijski raspon: 30Hz - 110kHz, sealed box, Peak SPL: 105dB

539 € ~~599 €~~ Akcija

Poboljšana disperzija i veća snaga.

Zvučnici ACOUSTIC ENERGY AE300

2-sistemski zvucnici sa 130mm mid-bass jedinicama drivera, novim keramickim aluminijskim sandwich konusom i 28mm aluminijskim visokotoncem, frekvencijski raspon 45Hz -30kHz, osjetljivost 86 dB, vršni SPL 112dB, snaga 100W, crossover frekvencija 2.8kHz, impedancija 6 ohma.

719 € ~~799 €~~ Akcija

Uživajte u glazbi visoke rezolucije.

Stereo / Mrežni Receiver YAMAHA R-N600A

snaga: 80 W+80W (8 ohma), 60W+60W (4 ohma), Pure Direct Mode, Airplay, Wi-Fi, Bluetooth, Ethernet, phono input, headphone out

789 € Kupi

San svakog audiofila.

Slušalice SENNHEISER HD 650

Max SPL: 103 dB na 1kHz/1 Vrms, THD: 0,05%, Impedancija: 300 ohm, Frekvencijski odaziv: 10 Hz - 39kHz, 6,35 mm TRS + 3,5 mm adapter

499 € Kupi

Pametni i kompaktni soundbar.

Soundbar SONOS BEAM Gen 2 crni

Osjetite zvuk oko sebe uz prostrano 3D iskustvo Dolby Atmosa. Beznaporni setup s samo dva kabla i pametno Trueplay™ podešavanje

589 € Kupi

Svestran High-end Hi-Fi DAC

D/A pretvarač i pretpojačalo TANGENT DAC II

Sabre ES9023 24-bitni stereo audio DAC. Nudi višestruke digitalne ulaze ukljucujuci koaksijalni, opticki digitalni i USB, kao i AptX Bluetooth tehnologiju za streaming visoke kvalitete. Idealan kao pretpojacalo, može takoder funkcionirati kao pojacalo za slušalice.

279 € NOVO

Novosti iz naše Hi-Fi slušaonice