Google je lažirao demonstraciju mogućnosti Gemini AI modela

Googleov demo-video koji prikazuje multimodalne mogućnosti najnovijeg velikog jezičnog modela Gemini oduševio je Internet… ali dobar dio tog promotivnog videa pokazao se lažiranim

Igor Berecki ponedjeljak, 11. prosinca 2023. u 15:15

U videu kojega možete pogledati ispod ovog odlomka, stječe se dojam da je novi, veliki i moćni Googleov jezični AI-model Gemini sposoban reagirati odgovorima na glasovnu komunikaciju s korisnikom. Štoviše, čini se da može i komunicirati s korisnikovom okolinom, odnosno prepoznavati što je korisnik nacrtao ili igrati „papir-škare-kamen“.

Primjerice, kada se u demonstraciji od Geminija zatraži da pogodi što je korisnik skicirao na post-It papiriću, Gemini točno odgovori kako je na crtežu patka. Zatim se gumena patkica stavi na mapu svijeta, a Gemini uspijeva identificirati poziciju na koju je predmet stavljen.

Montirani procesi

Sudeći po prikazanim vještinama u demonstracijskom videu, Gemini je sposoban činiti moćne stvari - identificirati objekte, pronalaziti ispod koje se šalice nalazi skriveni predmet, povezivati oblike i boje uz korištenje apstraktnog zaključivanja, integrirati crteže glazbenih instrumenata s njihovim zvukom… i još mnogo toga. Ukratko, u demo-videu Google je pokazao moćne Geminijeve sposobnosti obrade različitih oblika informacija, logičkog i prostornog zaključivanja i glasovne komunikacije… i sve to u realnom vremenu!

Ali (evo ga, slijedi taj „ali“…!) realnost je ipak nešto drukčija od video-snimke. Zapravo, prilično je različita. Naime, niti su upiti koje je Gemini u stvarnosti primao od korisnika bili glasovni, niti je Gemini na njih odgovarao generiranjem govora -- pitanja i odgovori su bili tekstualni. Štoviše, Geminijevi odgovori uopće nisu bili generirani u stvarnom vremenu.

Na izravne upite tech-novinara o detaljima snimanja demo-prezentacije Geminijevih performansi, Googleov glasnogovornik je izjavio kako je demo „…izrađen korištenjem screenshotova i kratkih montažnih kadrova izvučenih iz video-snimki učinjenih tijekom tekstualne interakcije između korisnika i Geminija“.

Kad bi baba imala točkove, zvala bi se Rolls Royce

Tako se naposlijetku pokazalo da je osoba koja je „govorila“ u demonstraciji zapravo samo čitala neke od tekstualnih upita koji su proslijeđeni modelu, a robotski glas koji je dodijeljen Geminiju je na isti način „pročitao“ odgovore koje je Gemini generirao u obliku teksta. Slike preuzete iz videa (poput one koja prikazuje „igranje“ papir-škare-kamen) ubačene su u AI-model, pa se od njega zatražilo da pogodi o kojoj je igri riječ, a slični „trikovi“ korišteni su i za neke od ostalih prikaza Geminijevih „sposobnosti“.

Googleov tim koji je producirao demo-video je iz cjelokupnog materijala odabrao (glasnogovornik doslovce koristi izraz 'cherry-picked') najbolje Geminijeve odgovore i reakcije, te ih u snimci popratio montiranom dvosmjernom govornom komunikacijom, kako bi se činilo da model može besprijekorno glasovno reagirati u stvarnom vremenu.

„Za potrebe ovog demoa latencija je smanjena, a Geminijeve reakcije i odgovori su skraćeni radi sažetosti“, stoji u opisu videa. Oriol Vinyals, potpredsjednik odjela za istraživanje i deep learning u Google DeepMindu, koji je pomogao voditi projekt Gemini, izjavio je da ovaj demo-video ustvari pokazuje „…kako bi mogla izgledati multimodalna korisnička iskustva izrađena pomoću Geminija“.

Ne sumnjamo da će jednoga dana – i to u ne jako dalekoj budućnosti – moćni AI-modeli zaista posjedovati impresivne sposobnosti interakcije i inteligencije koje se u Googleovom videu sada pripisuju Geminiju (odnosno, pokazuju kako bi mogao izgledati jedan takav AI-model). No, čini se kako za sada ovakve montirane promotivne demonstracije ipak još uvijek ne prelaze „što bi bilo kad bi bilo“ razinu jeftinog reklamnog materijala.