Dopo il lancio e il successo di ChatGPT, OpenAI ha deciso di rilasciare un nuovo strumento basato sull’intelligenza artificiale generativa, che potrebbe diventare un prodotto di punta e che promette di conquistare l’attenzione degli utenti del web e di semplificare la l’attività di creazione dei contenuti. Si tratta di Sora, un generatore di video AI, realistici e di alta qualità.
Il funzionamento è molto simile a quello dell’ormai conosciutissimo ChatGPT: intuitivo e semplice. I risultati restituiti sono tutt’altro che banali, ma estremamente sorprendenti. Scopriamo la tecnologia che rende possibile l’esistenza e l’efficacia di Sora, come si potrà utilizzare e i vantaggi che garantisce.
Sora, la tecnologia alla sua base
Rokas Tenys / Shutterstock.com
Sora è uno strumento di intelligenza artificiale generativa, basato su un’importante architettura che consente la creazione di modelli potenti ed altamente efficace. In particolare, viene sfruttato il modello transformer, basato sulle reti neurali e che è in grado di analizzare e comprendere i comandi testuali. È capace di prestare attenzione a vari elementi di un testo per fornire, alla fine del processo, un contenuto che risponda correttamente e coerentemente alla richiesta ricevuta all’utente e che soddisfi le sue esigenze e i suoi desideri.
Ha, quindi, una profonda comprensione del linguaggio e riesce ad interpretare correttamente ciò che gli viene richiesto.
Sora si basa sulle ricerche effettuate in passato per sviluppare DALL-E e ChatGPT, per questo motivo è in grado di seguire in maniera fedele e precisa le istruzioni fornite dall’utente tramite i prompt
L’architettura transformer lavora in combinazione con i modelli di diffusione, che partono dalla realizzazione di un’immagine casuale fino a crearne una finale che risponde in maniera pertinente al prompt ricevuto. Quello che si ottiene e che viene reso possibile è la generazione di video di qualità elevata, con una buona risoluzione e coerenti con quanto richiesto dall’utente.
Sora è un modello text-to video, che è stato addestrato per renderlo capace di simulare il movimento e tutto ciò che è presente nel mondo fisico in modo da ottenere risultati realistici.
Come funziona Sora e cosa può fare
FilipArtLab / Shutterstock.com
Sora parte da un comando testuale. L’utente descrive in maniera chiara il video che vuole ottenere e, Sora, lo realizza nella maniera più fedele possibile, decodificando il prompt e cercando di interpretare nella maniera corretta ciò che gli è stato richiesto.
Al momento Sora può generare solo video brevi, non più lunghi di un minuto, ed è disponibile, nella fase iniziale, solo per un piccolo numero di utenti. Si tratta, in particolare, di un team che deve coglierne le criticità, le difficoltà, le risposte poco pertinenti e i rischi e i pericoli, e un piccolo gruppo composta da artisti, designer, registi e creator attentamente selezionati e che hanno come compito quello di restituire un feedback su Sora e su come questo può essere utili per tutti i professionisti che lavorano con la creatività.
Sora può generare scene complesse, che coinvolgono più personaggi e movimenti di diversa tipologia. I contenuti prodotti sono molto dettagliati e fanno riferimento non solo a ciò che l’utente richiede in maniera specifica attraverso il prompt, ma anche a tutto quello che veramente esiste nel mondo reale. Ciò li rende realistici e altamente soddisfacenti.
Il modello è in grado di lavorare anche su video già esistenti, aggiungendo dei fotogrammi mancanti, prolungandone la durata o migliorandoli qualitativamente.
Lo strumento è, al momento, non ancora perfetto e ciò comporta dei limiti e la possibilità di generare dei video che contengono degli errori. Le maggiori difficoltà provengono dalla riproduzione di alcuni movimenti in scene complesse, in cui sono presenti tanti soggetti, e nelle relazioni di causa-effetto. Ad esempio, il protagonista del video potrebbe mangiare da un piatto, ma il cibo non diminuirà. Si tratta di dettagli che gli sviluppatori vogliono rendere perfetti e sui quali continueranno a lavorare con dedizione.
Sora di OpenAI, la sicurezza la primo posto
Ascannio / Shutterstock.com
OpenAI è estremamente consapevole dell’importanza di rendere i prodotti basati sull’intelligenza artificiale sicuri e, per questo motivo, ha intenzione di effettuare numerosi test e di prendere tutte le misure necessarie prima che Sora diventi disponibile per tutti gli utenti del web.
Ciò che OpenAI vuole evitare è di incentivare la disinformazione, creare dei contenuti che sono basati su dei pregiudizi o che incitino all’odio, alla violenza e ella discriminazione. Nonostante l’attenzione posta durante l’addestramento, infatti, il sistema potrebbe aver appreso delle contraddizioni o delle nozioni non corrette e fuorvianti.
Sora verrà perfezionato prima del rilascio ufficiale a tutti gli utenti del web in modo da garantire l’utilizzo di un modello sicuro ed efficace
È importante, altresì, che sia possibile comprendere quando un video viene generato con Sora o con altri modelli di intelligenza artificiale generativa. Per gli utilizzatori sarà impossibile inserire dei prompt che violano le norme di utilizzo, come quelli che richiedono di generare personaggi che somigliano a persone reali e famose o scene di violenza.
OpenAI può contare sui sistemi di sicurezza già sviluppati per altri prodotti rilasciati sul mercato, in particolare ChatGPT, che sta ricevendo grande apprezzamento da parte del pubblico e che viene impiegato in un numero di ambiti sempre maggiore.
Per saperne di più: