Con MusicGen, Meta prova a lasciare il segno nella corsa all’intelligenza artificiale generativa. Negli ultimi anni gli utenti hanno visto nascere algoritmi basati su AI e tool in grado di realizzare i task più disparati: a partire da ChatGPT e la sua capacità di tradurre input testuali in output scritti. Fino ad arrivare ai modelli dedicati alla creazione di immagini e video.
Anche MusicGen è un modello di linguaggio che sfrutta il deep learning. Ma, a differenza delle AI elencate in precedenza, punta a generare musica inedita. L’utente inserisce la propria richiesta testuale e il software la trasforma in una melodia.
Un elemento molto interessante di MusicGen è che il suo modello è interamente open source. Ciò vuol dire che gli sviluppatori di tutto il mondo potranno studiarlo e magari utilizzarlo per realizzare strumenti di AI ancora più avanzati.
Come funziona MusicGen
Il modello su cui si basa MusicGen è lo stesso Generative Pre-trained Transformer portato al successo dal team di OpenAI con il sopracitato ChatGPT.
Per addestrare il modello gli sviluppatori hanno fatto uso di più o meno 20.000 ore di musica preesistente. La metà di questo archivio è composta da brani offerti con licenza, caricati in alta qualità. L’altra metà è composta da tracce provenienti da Pond5 e Shutterstock.
Pond5 è uno store online espressamente dedicato ai media liberi da royalty: le sue libraries sono composte da fotografie e filmati, ma anche da musica ed effetti sonori. Shutterstock è invece una piattaforma dedicata all’upload e al download di contenuti multimediali di tutti i tipi.
MusicGen è stato realizzato da una divisione di Meta di nome Audiocraft. Il team ha potuto sfruttare il tokenizer audio proprietario EnCodec a 32Khz. Grazie a questo strumento è stato possibile elaborare in parallelo piùblocchi musicali, di dimensioni e peso ridotti.
Per testare le potenzialità di MusicGen di Meta è possibile visitare il sito web di Hugging Face. Ma anche eseguire il processo localmente, scegliendo una tra le tre versioni di modello disponibili: quella da 300 milioni di parametri, quella da 1,5 miliardi di parametri e quella da 3,3 miliardi di parametri.
A prescindere dal modello scelto, è comunque consigliabile eseguire MusicGen su un dispositivo con determinate caratteristiche base. Occorre prestare attenzione innanzitutto alla GPU, che dovrebbe contare almeno su 16 GB di RAM.
Come usare MusicGen
L’utilizzo di MusicGen di Meta non è poi così diverso da quello dell’ormai noto ChatGPT. L’utente infatti non deve fare altro che scrivere una richiesta, cercando di descrivere nella maniera più dettagliata possibile che tipo di musica vorrebbe ascoltare.
Come con ChatGPT, anche con MusicGen l’unico limite in tal senso è la fantasia di chi scrive. È possibile chiedere un pezzo che ricordi lo stile dell’Hip Hop americano anni ’90. Ma è anche possibile caricare un input molto più specifico: ad esempio un brano che si ispiri al genere metal, ma che preveda l’utilizzo di strumenti caraibici.
L’intelligenza artificiale accoglie ed elabora la richiesta, per poi restituire un brano inedito. In questa prima fase MusicGenrealizza brani molto brevi: la lunghezza media è di 12 secondi. Inoltre l’output non è sempre fedele alle specifiche inserite dall’utente.
Allo stesso tempo il modello di MusicGen viene considerato addirittura migliore di quello di Google, per almeno due ordini di ragioni. Innanzitutto non richiede una rappresentazione semantica auto-supervisionata. E poi, in questo momento, prevede soltanto 50 passi di regressione automatica per ogni secondo di audio.
Per saperne di più: Intelligenza Artificiale, cos'è e cosa può fare per noi
Per saperne di più: Social Media, la lista dei principali social media