Tehnologija

"Tehnologija je dobar sluga, a zao gospodar": Šta sve može nova OpenAI alatka Sora, koja tekst pretvara u video

Komentari

Autor: Staša Rosić

25/02/2024

-

12:00

"Tehnologija je dobar sluga, a zao gospodar": Šta sve može nova OpenAI alatka Sora, koja tekst pretvara u video
"Tehnologija je dobar sluga, a zao gospodar": Šta sve može nova OpenAI alatka Sora, koja tekst pretvara u video - Copyright profimedia

veličina teksta

Aa Aa

Prošle nedelje OpenAI, kompanija koja stoji iza planetarno popularnog alata ChatGPT zasnovanog na takozvanoj generativnoj veštačkoj inteligenciji, predstavila je novi sistem po imenu "Sora" koji proizvodi kratke videe prema tekstualnim uputstvima.

Iz videa kojim je kompanija demonstirala novu alatku, može da se vidi kako veštačka inteligencija kreira neverovatno realistične prikaze slične pravim snimcima, ali i "zamišlja" sukob dva piratska broda u sukobu, dok plove unutar šoljice kafe ili "istorijski" snimak Kalifornije tokom zlatne groznice.

Iako Sora još nije dostupna za javnost, videi koje je ovaj alat napravio samo na osnovu zadatih tekstualnih opisa, doveli su do burnih reakcija javnosti. Dok je s jedne strane očigledna primenjivost ovog alata u nizu kreativnih industrija, s druge strane postoji sve veća zabrinutost zbog potencijalne zloupotrebe njenih mogućnosti.

Kako funkcioniše Sora?

Poput drugih generativnih jezičkih modela, kao što su DALL·E 3, StableDiffusion i Midjourney, Sora je difuzioni model. To znači da počinje sa svakim kadrom videa koji se sastoji od statičkog šuma i koristi mašinsko učenje da postepeno transformiše slike u nešto što liči na opis u upitu.

Može da pravi videe u trajanju do 60 sekundi, a istovremeno u obzir uzima više frejmova odjednom, što omogućava da objekti budu konzistentni kada se kreću u vidokrugu i izvan njega.

Da bi verno predstavila suštinu onoga što korisnik od nje traži, Sora koristi tehniku pod nazivom "recaptioning" koja je takođe dostupna u DALL·E 3. To znači da se pre nego što se kreira bilo koji video, GPT koristi za prepisivanje upita, kako bi se u njega uključilo mnogo više detalja.

Sora nije prvi alat zasnovan na generativnom jezičkom modelu koji tekst prevodi u video. Raniji primeri su Emu kompanije Meta, zatim Gen-2 (Runway), Stable Video Diffusion (Stability AI) i od nedavno Lumiere (Google).

Tanjug/AP/Michael Dwyer

 

Ipak, deluje da alatka OpenAI kompanije ima prednost, barem u pogledu rezolucije i trajanja generisanih videa. Dok je, primera radi, Lumiere ograničen na videe od 512 × 512 piksela u trajanju od oko pet sekundi, Sora može da pravi klipove u punoj rezoluciji od 1920 × 1080 piksela u trajanju i do šezdeset sekundi. Lumiere takođe ne može da pravi videe koji se sastoje od više kadrova, dok Sora može.

Gde mogu da se koriste ovakvi modeli?

Video sadržaj se danas proizvodi ili snimanjem stvarnog sveta ili uz upotrebu specijalnih efekata, a i jedan i drugi proces može biti vrlo skup i dugotrajan. Ukoliko Sora postane dostupna po razumnoj ceni, ljudi bi mogli da je koriste za mnogo jeftinije pravljenje prototipa i vizualizaciju određenih koncepata.

OpenAI u svojim tehničkim specifikacijama navodi i da bi Sora mogla da bude moćan simulator pojava iz fizičkog i digitalnog sveta, što bi značilo da bi mogla da ima primenu u fizičkim, hemijskim, pa čak i društvenim eksperimentima.

Međutim, nije poznato da li je Sora zaista toliko pouzdana. Dosadašnji alati koji stvaraju slike iz zadatih tekstualnih opisa, obično zahtevaju da napravite 10 ili 20 slika, pre nego što kreiraju baš ono što vam je potrebno, ali OpenAI nije obelodanio koliko je pokušaja potrebno da bi Sora napravila željeni video.

Ono što su priznali je da alat zasad nema implicitno razumevanje zakona fizike koji vladaju u stvarnom svetu. Na primer, model ne razume da eksplozijom uništen predmet u jednom kadru, ne bi trebalo da se pojavi u sledećem.

Ipak, dok svet čeka na regulativu koja bi trebalo da omogući etičku upotrebu savremenih tehnologija i spreči njihovu zloupotrebu, često se dešava da mogućnosti primene nekih alata ostanu u senci potencijalnih rizika.

Potencijalno još jedan alat za širenje dezinformacija

Alati zasnovani na generativnoj veštačkoj inteligenciji, ma koliko korisni bili, otvorili su brojna etička pitanja koja se tiču njihove zloupotrebe. Jedan od "svežijih" primera je neprijatnost koju je imala pop pevačica Tejlor Svift, kada su se na internetu pojavile lažne eksplicitne fotografije sa njenim likom, napravljene uz pomoć sličnih alata.

Unsplash

 

U tom smislu lako je pretpostaviti da bi neko mogao zlonamerno da upotrebi Soru, kako bi generisao realističan video bilo koje scene, koju bi potom koristio kako bi širio lažne vesti i dezinformacije.

Docent dr Branislav Kisačanin sa Fakulteta tehničkih nauka Univerziteta u Novom Sadu, koji je i jedan od osnivača Istraživačko-razvojnog instituta za veštačku inteligenciju Srbije, za Euronews Srbija objašnjava da opasnosti koje bi potencijalno mogla da donese Sora, mogle da se odnose i na sve ostale slične alate.

"Čak se možda manje odnosi na Soru, jer koliko vidim u najavi, preduzeli su mnogo toga da bi sprečili zloupotrebe. Veća je verovatnoća zloupotrebe nekih drugih sličnih alata koje su napravili - blago rečeno - manje društveno odgovorni igrači", smatra dr Kisačanin.

On podseća da su čak i najjednostavniji alati podložni zloupotrebi i da zato postoje pravila ponašanja, etika i u krajnjem slučaju, zakoni i policija.

"U Evropskoj uniji i Sjedinjenim Američkim Državama se aktivno radi na razvoju regulative koja bi pokrila najnovije tehnologije i ceo svet pomno prati šta oni rade. Mislim da mediji imaju posebno važnu ulogu da aktivno pomognu da javnost razume kakve su koristi, a kakve opasnosti od novih tehnologija", ističe naš sagovornik.

Dr Kisačanin naglašava da je važno na prvom mestu razjasniti o kakvoj tehnologiji govorimo.

"Često vidim zbunjujuće članke u medijima u kojima se brka sadašnji razvoj tehnologija na bazi mašinskog učenja, koji se popularno zove veštačka inteligencija, među njima i generativna veštačka inteligencija, sa takozvanom generalnom veštačkom inteligencijom. Kada Ilon Mask poziva na pauzu u radu, ne misli na ovu sadasnju veštačku inteligenciju, jer bi onda i njegova kompanija Tesla morala da stane sa razvojem autonomnih vozila, nego misli na generalnu, koju bi zaista trebalo dobro regulisati i to mnogo pre nego što postane moguća za realizaciju", kaže stručnjak za ovu oblast.

On smatra da će veštačka inteligencija, a naročito generalna, morati da se reguliše na način sličan kako su regulisane nuklearne i biotehnologije.

"Dobro je što se o tome već priča, da se to uradi na vreme, da ne bismo ostavili ni malo prostora da neko zaista napravi Terminatore. Bilo kako bilo i dalje važi naša stara poslovica - da su voda, vatra, a sada bih dodao i tehnologija, dobar sluga, a zao gospodar", zaključuje dr Kisačanin.

Komentari (0)

Magazin