Microsoftov sustav VALL-E iz tri sekunde govora može sintetizirati bilo čiji glas

Ono što je DALL-E za slike, VALL-E bi trebao biti za ljudski glas. Novi sustav jezičnog modeliranja i računalne sinteze glasa treba samo tri sekunde uzorka kako bi uspješno imitirao bilo koga

Sandro Vrbanus četvrtak, 12. siječnja 2023. u 13:20

Microsoft je odlučio mnogo toga uložiti u umjetnu inteligenciju i njezin razvoj u nadolazećim godinama. Već sada znamo da su najveći pojedinačni investitor u OpenAI. U organizaciju koja je izradila ChatGPT i DALL-E do sada su uložili milijardu dolara. Ona trenutačno vrijedi, prema nekim procjenama, 29 milijardi dolara, a Microsoft je u dogovorima da uloži dodatnih 10 milijardi i preuzme 49% vlasničkog udjela u kompaniji koja ima potencijal redefinirati budućnost umjetne inteligencije (i ne samo nje).

Deepfake za glas

Nova tehnologija koja se "kuha" u Microsoftu sada se tiče unaprjeđenja modela "text-to-speech", onih koji iz napisanog teksta sintetiziraju prirodni ljudski glas (vidi: Gabrijela i Srećko). No, njihovi su stručnjaci otišli korak dalje od generiranja sintetičkog ljudskog glasa, pa su uspjeli istrenirati umjetnu inteligenciju da im stvara realistične replike glasova stvarnih ljudi.

Sustav VALL-E, izrađen u Microsoftu i prikazan tek kroz nekoliko demo primjera, koristi napredne računalne neuronske mreže za analizu teksta kroz jezične modele. U to potom kombinira primjere zvučnih zapisa na temelju kojih može generirati nove zvukove. Sustav je treniran na 60 tisuća sati govora oko 7 tisuća različitih govornika na engleskom jeziku, za što kažu da je više stotina puta veći podatkovni skup od onih korištenih na dosadašnjim sličnim sustavima.

Dijagram rada sustava VALL-E. Autori kažu da podržava i vanjske sustave generiranja teksta, poput ChatGPT-a

Krajnji rezultat – VALL-E treba "čuti" samo tri sekunde nečijeg govora, da bi glas te osobe uspješno iskoristio za daljnje generiranje zvuka, "govoreći" glasom te osobe. Dodatnu prednost pred postojećim modelima ovaj sustav donosi i zadržavanjem potrebne emocije u glasu, čak i naglaska te zvučnog okruženja, kakvo je "čuo" u tri sekunde uzorka.

Fascinantan, ali i opasan

Na stranicama, na kojima su sustav i prateći rad predstavljeni, može se naći određeni broj primjera sintetiziranog glasa, kao i uzoraka na temelju kojih su nastali. Kao i ChatGPT ili DALL-E, i ova tehnologija već sada fascinira svojom izvedbom i realističnošću konačnog rezultata.

Autori VALL-E-ja na kraju napominju da shvaćaju etičke implikacije računalnog programa koji je u stanju vjerno replicirati bilo čiji glas. Veliki su rizici povezani s mogućim neželjenim korištenjem – od kreiranja deepfake sadržaja, preko varanja sustava za autentifikaciju glasom, pa do najobičnijeg lažnog predstavljanja vjernim oponašanjem. Sustav stoga nije otvoren za javno korištenje, a prije eventualnog puštanja u javnost, potrebno je osigurati da govornik, čiji glas se uzima kao uzorak, bude svjestan toga i da može dati potrebnu privolu za daljnje računalno sintetiziranje vlastitog glasa.

Vezano

📢 Provjeri

Lenovo Ideapad

Istraži!

449,99 € ~~469,99 €~~ Kupi

📢 Istraži!

EPOCH periferija

Već od 14,99 €

Kupi

📢 Istraži!

Poco mobiteli

Do 28% popusta

Kupi

Zadnji komentari na forumu

kirat 13. siječnja 2023.

T-1000 je imao tu mogucnost :-)

ante_etna 13. siječnja 2023.

Opet je stvarnost nadmašila fantaziju. Da je Skynet imao ovakvu tehnologiju, Cyberdyne Systems Model 101 ili skraćeno T-800 bi imao prikladniji naglasak za okružje u kojem je djelovao, a ne kao austrijski turist u Istri kad mu Keljmendi kaže da mu nedostaje još dvije k...

MEGATAMA 13. siječnja 2023.

Ovakva stvar bi morala bit apsolutno ilegalna,sigurnosni sistemi na bazi glasa su sad nula bodova.

ihush 12. siječnja 2023.

srećko i gabrijela su dobili klinca.. :)

Horned Reaer 12. siječnja 2023.

Sta ce biti za par stotina godina, vjerovatno ce umjetna inteligencija biti toliko razvijena da ce dobiti svijest o postojanju !! Odnosno stvorit cemo novi oblik zivota sinteticki ! Mislim ako se kombiniraju neoronske stanice sa cipovima svasta je moguce

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

Optimizirani dizajn kućišta za najbolju akustičku izvedbu.

Akcija

KEF LS50 Meta zvučnici

Dvosmjerni bas-refleks, Uni-Q driver, 47 Hz - 45 kHz, bas 26 Hz, distorzija <0,4%, izlaz 106 dB, snaga 40-100 W, impedancija 8 Ω (min. 3,5 Ω), osjetljivost 85 db

1.149 € ~~1.289 €~~ Kupi

Delta Sigma drive sistem.

Akcija

TECHNICS SL-1300G Grand Class

Direct Drive, bebrush DC motor, 33-1/3, 45, 78 rpm, početni moment 0,32 N·m, wow i flutter 0,025%, aluminijska podloga 332 mm, tonearm 230 mm, podešavanje sile igle 0 - 4g, težina kartridža 5,6 - 12,0g, PHONO izlaz, napajanje 220-240V, 10W.

2.699 € ~~2.699 €~~ Akcija

Home subwoofer audiofilske klase.

Akcija

REL ACOUSTICS T/7X

Aktivni subwoofer, 8" aktivni drajver, 10" pasivni radiator, -6dB pri 30 Hz, ulazi: Neutrik Speakon, RCA, LFE, snaga 200 W (RMS), Klasa A/B pojačalo

1.099 € ~~1.223 €~~ Akcija

AccuEQ akustička kalibracija.

Akcija

ONKYO TX-SR494DAB AV receiver

Pojačalo: 160 W/kanal (6 Ω, 1 kHz, 10% THD), 135 W/kanal (6 Ω, 1 kHz, 1% THD), THD+N 0,08%, frekvencijski odziv 10 Hz–100 kHz, ton kontrola ±10 dB (bass 20 Hz, treble 20 kHz), signal-noise 109 dB, impedancija zvučnika 4 Ω–16 Ω. Tuner: FM 87,5 MHz–108 MHz, AM 530 kHz–1,710 kHz, DAB+ 40 stanica.

499 € ~~699 €~~ Akcija

Vrhunski zvuk i elegantna estetika.

Akcija

PSB Imagine T54 zvučnici

Frekvencijski odziv: 35-23,000 Hz (±3 dB), osjetljivost 87 dB, impedancija 8 Ω, preporučena snaga 20-150 W. Tweeter 1” Titanijumska kupola, Midrange 4” Woven Carbon Fibre, Woofer 2 x 5 1/4”. Križanje: 2,500 Hz (LR4), 500 Hz (B3). Dizajn: 3-kanalni, dual bass reflex, 2x stražnji portovi.

1.299 € ~~1.489 €~~ Akcija

Inovativni Uni-Q driver.

Demo

KEF Q750 zvučnici

Demo model s manjim oštećenjima. Preporucena ulazna snaga 15-150W, osjetljivost 88dB, nominalna impedanca 8 Ohma,frekvencijski raspon 42-28,000Hz.

899 € 1.389 Akcija

Nasljednik legendarnih Speaker Box 5 zvučnika.

Novo u ponudi

PRO-JECT Speaker BOX 5 E red

2-sistemski bass-reflex zvučnik s prirodnom transparencijom, živom dinamikom i MDF kućištem bez rezonancija.

349 € Kupi

Prirodan zvuk Linton zvučnika iz 70-ih.

WHARFEDALE Linton Heritage

3-sistemski bas reflex zvucnici sa 8" Kevlar bas driverom, 5" midrange driverom i 1" visokotonskim driverom, preporucena snaga pojcala 25-200W, nominalna impedancija 6 ohma, frekvencijski odziv 40Hz ~ 20kHz. Stalci nisu ukljuceni.

1.249 € Kupi

Sadrži najnoviju generaciju MDC tehnologije.

NAD C 379 stereo pojačala

HybridDigital UcD pojačalo, 2 x 80 W (8/4 Ω), bridged do 300 W, ESS SABRE™ DAC (32-bit/384kHz), 2 MDC 2 utora, MM Phono pretpojačalo, pojačalo za slušalice, HDMI eARC, optički i koaksijalni ulazi, 2 izlaza za subwoofer.

1.199 € Kupi

Za one koji neumoljivo teže najboljem zvuku.