AI radi videe koje je nemoguće razlikovati od pravih snimki. To je zabrinjavajuće
OPENAI, kompanija koja stoji iza popularnog ChatGPT-ja, nedavno je predstavila svoj najnoviji sustav umjetne inteligencije, program nazvan Sora, koji može transformirati tekstualne opise u krajnje realistične videe. Novi model generiranja videozapisa izazvao je veliko uzbuđenje oko napretka AI tehnologije, ali i sve veću zabrinutost zbog mogućnosti da generirani videi problem dezinformacija učine još gorim, što je posebno važno tijekom izborne godine diljem svijeta, piše New Scientist.
Model Sora trenutno može stvarati videozapise u trajanju do 60 sekundi koristeći samo tekstualne upute ili tekst u kombinaciji sa slikom. Jedan demonstracijski video počinje tekstualnim upitom koji opisuje kako „elegantna žena hoda ulicom Tokija ispunjenom toplim svjetlećim neonskim i animiranim natpisima grada“.
Ostali primjeri uključuju psa koji se brčka u snijegu, vozila koja se voze cestama i fantastičnije scenarije poput morskih pasa koji plivaju u zraku između gradskih nebodera.
Zašto je to opasno?
„Kao i s drugim tehnikama u generativnoj umjetnoj inteligenciji, nema razloga vjerovati da se pretvaranje teksta u video neće nastaviti ubrzano poboljšavati te nas približiti trenutku kada će biti teško razlikovati lažno od stvarnog“, kaže Hany Farid s Berkeleya, sveučilišta u Kaliforniji.
„Ova bi tehnologija, u kombinaciji s AI kloniranjem glasova, mogla otvoriti potpuno novu frontu kada je u pitanju stvaranje deepfakea ljudi koji govore i rade stvari koje nikada nisu učinili”, dodao je.
Sora je uvjerljivija od svih drugih AI modela za generiranje videa
Sora se djelomično temelji na postojećim tehnologijama Open AI-ja, kao što su generator slika DALL-E i ChatGPT. Modeli umjetne inteligencije pretvaranja teksta u video donekle su zaostajali za tim drugim tehnologijama u smislu realizma i pristupačnosti, ali demonstracija Sora je za „red veličine uvjerljivija i izgleda manje nacrtano“ od svega što smo prije vidjeli, kaže Rachel Tobac, suosnivačica SocialProof Securityja, IT organizacije usredotočene na društveni inženjering.
Kako bi postigla višu razinu realizma, Sora kombinira dva različita AI pristupa. Prvi je model difuzije sličan onima koji se koriste u AI generatorima slike kao što je DALL-E. Ovi modeli uče postupno pretvarati nasumične piksele u koherentnu sliku.
Kako Sora radi?
Druga tehnika umjetne inteligencije naziva se „transformatorska arhitektura“ i koristi se za kontekstualizaciju i spajanje sekvencijalnih podataka. Na primjer, veliki jezični modeli koriste transformatorsku arhitekturu za sastavljanje riječi u općenito razumljive rečenice. U ovom slučaju, OpenAI je razbio videoisječke u vizualne „prostorno-vremenske zakrpe“ koje je Sorina transformatorska arhitektura mogla obraditi.
Sorini videozapisi još uvijek sadrže mnogo pogrešaka, poput zamjene mjesta lijeve i desne noge čovjeka koji hoda ili stolice koja nasumično lebdi u zraku. Ipak, Jim Fan, istraživač u kompaniji NVIDIA, na X-u, bivšem Twitteru, pohvalio je Soru kao „stroj vođen podacima“ koji može simulirati svjetove.
Deepfake videi zasad će se moći razotkriti, ali…
Činjenica da Sorini videozapisi još uvijek pokazuju neke čudne greške pri prikazivanju složenih scena s puno pokreta sugerira da će se takvi deepfake videozapisi za sada moći otkriti, kaže Arvind Narayanan sa Sveučilišta Princeton. No, također je upozorio da ćemo dugoročno „morati pronaći druge načine da se prilagodimo kao društvo“.
OpenAI je zasad odustao od toga da Sora postane javno dostupna, dok stručnjaci pokušavaju razbiti njene zaštitne mjere, a sve kako bi procijenili njegov potencijal za zlouporabu. Odabrani ljudi koji trenutno testiraju Soru su „stručnjaci za domenu u područjima kao što su dezinformacije, sadržaj pun mržnje i pristranost“, kaže glasnogovornik OpenAI-ja.
Ovo testiranje je od ključne važnosti jer bi umjetni videozapisi mogli omogućiti zlonamjernim osobama da generiraju lažne snimke kako bi, na primjer, uznemiravali druge ili utjecali na izbore.
„Apsolutno može stvoriti videe koji bi mogli prevariti obične ljude“
„Sora je apsolutno sposobna stvoriti videozapise koji bi mogli prevariti obične ljude“, kaže Tobac. „Video ne mora biti savršen da bi bio vjerodostojan jer mnogi ljudi još uvijek ne shvaćaju da se videom može manipulirati jednako lako kao i slikama“, dodaje.
AI kompanije morat će surađivati s društvenim mrežama i vladama kako bi se nosile s dezinformacijama koje će se vjerojatno pojaviti kada Sora postane otvorena za javnost, kaže Tobac. Obrane mogu uključivati implementaciju jedinstvenih identifikatora ili „vodenih žigova“ za sadržaj generiran umjetnom inteligencijom.
Na pitanje ima li OpenAI ikakve planove učiniti Soru dostupnijom 2024., glasnogovornik OpenAI-ja rekao je da kompanija „poduzima nekoliko važnih sigurnosnih koraka prije nego što Sora postane dostupna“.
Na primjer, tvrtka već koristi automatizirane procese usmjerene na sprječavanje svojih komercijalnih modela umjetne inteligencije da generiraju prikaze ekstremnog nasilja, seksualnog sadržaja, slika koje šire mržnju i pravih političara te slavnih osoba. Budući da ove godine na izborima sudjeluje više ljudi nego ikad prije, ti će sigurnosni koraci biti ključni.