GPT-4o sada može generirati slike prema uputama korisnika

Najnapredniji jezični model OpenAI-a, GPT-4o, dobio je funkciju generiranja slika koja bi trebala biti najnaprednija do sada

Matej Markovinović četvrtak, 27. ožujka 2025. u 14:40
📷 Foto: OpenAI
Foto: OpenAI

OpenAI je dodatno unaprijedio jedan od svojih najnaprednijih jezičnih modela GPT-4o uvođenjem funkcije generiranja slika. Ova značajka omogućuje korisnicima da stvaraju visokokvalitetne i detaljne slike te da ih po želji modificiraju dok ne dobiju željeni rezultat.

"Stvaranje i prilagodba slika jednostavni su poput razgovora s chatbotom– samo opišite što vam treba, uključujući detalje poput omjera stranica, točnih boja (npr. hex kodova) ili prozirne pozadine. Budući da ovaj model stvara detaljnije slike, njihovo generiranje traje nešto dulje – često i do jedne minute", napominju iz OpenAI-a.

Za razliku od prijašnjih AI modela koji su imali problema s prikazivanjem teksta, OpenAI kaže da GPT-4o nudi znatno preciznije i vizualno kvalitetnije rezultate. Konkretnije rečeno, više ne bi trebalo biti problema oko prikaza teksta u generiranim slikama koji je u većini slučajeva bio u najmanju ruku neobičan i nerazumljiv.

Osim toga, umjesto stalnog mijenjanja tekstualnog upita kako bi se dobila bolja slika, GPT-4o omogućuje izravnu komunikaciju. Primjerice - korisnik traži sliku, zatim daje upute što promijeniti bez modificiranja početnog upita, pa ponovo i tako redom dok ne postigne željeni izgled. Dakle, sve funkcionira na principu korak po korak, dok ideja iza početne slike ostaje cijelo vrijeme ista.

Kako bi vam to lakše dočarali, OpenAI je objavio i primjere koje, zajedno s tekstualnim upitima, možete vidjeti na ovoj poveznici. No, priznaju da su u svojim primjerima koristili najbolje rezultate te kažu da je bilo i do 8 pokušaja.

Novost je i da GPT-4o može započeti s modificiranjem već postojeće slike. Korisnici tako mogu prenijeti fotografiju i zatražiti izmjene poput dodavanja određenih elemenata ili stila. OpenAI je pokazao kako se fotografija obične mačke može pretvoriti postepeno u ilustraciju koja izgleda kao da je iz nekog RPG-a.  

OpenAI napominje da je moguće započeti upit s više slika te kombinirati njihove elemente u jednu. Tvrde, naime, da GPT-4o može precizno upravljati s 10 do 20 objekata u jednoj slici, što je značajan napredak u odnosu na druge modele koji mogu podnijeti od 5 do 8 objekata bez pogrešaka.

No, unatoč napretku, OpenAI napominje da GPT-4o još uvijek nije savršen. Ponekad nepravilno odreže donji dio slike, izmišlja detalje, a zahtjevan mu je i rad s nelatiničnim pismima. Generiranje slika putem GPT-a 4o već je dostupno svim besplatnim i pretplaćenim korisnicima ChatGPT-a.