Negli anni passati gli utenti hanno iniziato a conoscere il mondo dell’intelligenza artificiale attraverso strumenti di tipo text to text o text toimage.
È il caso ad esempio di ChatGPT, che elabora contenuti complessi partendo da indicazioni testuali anche vaghe. Ma anche di DALL-E, che realizza immagini a partire dai desideri scritti degli internauti.
Il 2023 con ogni probabilità sarà l’anno di un nuovo salto tecnologico e dell’affermazione dell’intelligenza artificiale di tipo text to video. Anche perché proprio in queste settimane stanno venendo presentati i primi strumenti capaci di creazione o editing video a partire da una richiesta scritta.
Runway: intelligenza artificiale a favore delle storie
Credits Shutterstock
Uno dei primi strumenti text to video annunciati in assoluto è ad opera di Runway: una realtà che si presenta come “fondata da artisti” e che insegue l’obiettivo di portare le potenzialità dell’intelligenza artificiale a chiunque abbia qualcosa da dire.
Poco importa che si tratti di editing video, scrittura di testi o podcast. Runway punta a rendere la creazione di contenuti accessibile a tutti. Per farlo scommette su un mix di creatività e competenza tecnologica, servendosi di strumenti avanzati di machine learning.
L’elemento artistico e creativo è una caratteristica distintiva di Runway e rappresenta una vera e propria bussola per tutte le operazioni della startup. In tal senso un’intelligenza artificiale che svolga il ruolo di generatore di video è soltanto il passo di un percorso.
Runway vuole creare nuovo valore nel mondo attraverso l’interazione tra essere umano e macchina. Questa mission, unita a un’attenzione assoluta verso il cliente, ha permesso al team Runway di ottenere finanziamenti da investitori quali Felicis, Coaute, Amplify, Lux e Compound.
Come funziona lo strumento text to video di Runway
Credits Shutterstock
L’intelligenza artificiale annunciata da Runway potrebbe essere uno dei primi generatori video che partono da un semplice input testuale disponibili per il grande pubblico. Un modello text to video che rischia di anticipare l’operato di colossi quali Microsoft, Google e Meta.
Un risultato più che rimarchevole, considerato che il team di Runway è composto da meno di 50 persone. Certo, si tratta di professionisti dell’editing video, con lunga esperienza anche nel settore dell’AI.
Si pensi in tal senso a Gen-1, uno strumento di creazione video o di trasformazione video, che si basa su prompt di testo o su immagini di riferimento. Le possibilità di Gen-1 sono già considerevoli: ad esempio è in grado di trasformare un rendering cambiando radicalmente l’ambientazione o i connotati del suo protagonista.
L’annunciato strumento di AI Gen-2 dovrebbe però andare ben oltre. Stando a Runway permetterà agli utenti di creare video a partire da semplici indicazioni testuali. In fase di lancio si tratterà di contenuti di breve durata (massimo 3 secondi), ma nulla vieta che il limite di tempo venga superato.
Ad oggi Gen 2 è uno strumento quasi totalmente sconosciuto. Runway ha diffuso dei filmati dimostrativi del suo utilizzo, ma quasi nessuno ha potuto sperimentarlo al di fuori dell’azienda.
Modelscope: il primo generatore video basato su intelligenza artificiale?
Credits Shutterstock
In attesa di poter testare le potenzialità di Gen 2 di Runway, gli appassionati di intelligenza artificiale segnalano un altro strumento text to video apparentemente degno di nota. Si tratta di ModelScope, un tool realizzato da DAMO Vision Intelligence Lab: una divisione di ricerca legata al colosso dell’e-commerce Alibaba.
ModelScope è attualmente in fase di test presso il pubblico ed è disponibile in versione open source su Hugging Face. Il suo utilizzo è gratuito, ma potrebbe essere necessario pagare una cifra simbolica per poter eseguire il sistema su server GPU separato.
Ad oggi i campioni rilasciati da ModelScope sono ancora grezzi, ma le potenzialità dello strumento sembrano comunque impressionanti. Il tool è in grado di arrivare alla creazione di un video partendo da una qualsiasi richiesta testuale. L’unico limite in tal senso è la fantasia dell’utente, che potrebbe preferire vedere un palombaro ballerino, piuttosto che una giraffa su un deltaplano.
ModelScope si prenderà qualche minuto per elaborare la richiesta, procedendo alla creazione e all’editing del video. Il risultato è in linea con le aspettative, ma a onor del vero non è ancora completamente competitivo.
Le animazioni sono ancora limitate e soprattutto molte delle immagini utilizzate come base presentano i watermark di celebri siti stock internazionali. Anche se a onor del vero quest’ultimo problema è condiviso anche da molti generatori AI di tipo text to image in circolazione.
Non a caso l’agenzia fotografica Getty Images ha recentemente fatto causa alla società che ha rilasciato lo strumento AI Stable Diffusion: un generatore di immagini che, stando all’accusa, crea una versione corrotta della filigrana Getty, utilizzando impropriamente materiale protetto da diritto d’autore.
Le prossime sfide dei tool AI text to video
Credits Shutterstock
L’integrazione di un database vasto e libero è sicuramente una delle sfide più importanti condivise da Runaway Gen 2, ModelScope e i vari strumenti di intelligenza artificiale text to video che arriveranno nei mesi a venire.
Allo stesso tempo le aziende vorranno sicuramente provvedere a sviluppare la creazione video: tanto dal punto di vista della durata quanto da quello della qualità e quantità delle animazioni.
L’impressione degli addetti ai lavori è che Gen 2 non sia ancora pronto per essere testato a pieno. Nel frattempo dunque il suggerimento è di sperimentare con ModelScope, tenendo conto del suo stato attuale di avanzamento.
Limiti strutturali o di copyright che comunque non stanno impedendo alla community degli utenti di sbizzarrire la propria creatività. Basta effettuare qualche ricerca approfondita sul web per individuare già diversi prodotti figli dell’intelligenza artificiale. Dai video di Darth Vader che gira per un supermercato, a quelli di Spiderman che salva il mondo al fianco di un roditore capibara.
Per saperne di più: Intelligenza Artificiale, cos'è e cosa può fare per noi