login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Meta presenta MusicGen, l'AI open-source che crea musica da suoni e testo

Ascolta l'articolo

MusicGen è un modello di linguaggio open source realizzato da un team Meta, che sfrutta il deep learning per creare melodie in base alle richieste scritte dell’utente

Meta lancia MusicGen Koshiro K / Shutterstock.com

Con MusicGen, Meta prova a lasciare il segno nella corsa all’intelligenza artificiale generativa. Negli ultimi anni gli utenti hanno visto nascere algoritmi basati su AI e tool in grado di realizzare i task più disparati: a partire da ChatGPT e la sua capacità di tradurre input testuali in output scritti. Fino ad arrivare ai modelli dedicati alla creazione di immagini e video

Anche MusicGen è un modello di linguaggio che sfrutta il deep learning. Ma, a differenza delle AI elencate in precedenza, punta a generare musica inedita. L’utente inserisce la propria richiesta testuale e il software la trasforma in una melodia

Un elemento molto interessante di MusicGen è che il suo modello è interamente open source. Ciò vuol dire che gli sviluppatori di tutto il mondo potranno studiarlo e magari utilizzarlo per realizzare strumenti di AI ancora più avanzati

Come funziona MusicGen

Il modello su cui si basa MusicGen è lo stesso Generative Pre-trained Transformer portato al successo dal team di OpenAI con il sopracitato ChatGPT. 

Per addestrare il modello gli sviluppatori hanno fatto uso di più o meno 20.000 ore di musica preesistente. La metà di questo archivio è composta da brani offerti con licenza, caricati in alta qualità. L’altra metà è composta da tracce provenienti da Pond5 e Shutterstock. 

Pond5 è uno store online espressamente dedicato ai media liberi da royalty: le sue libraries sono composte da fotografie e filmati, ma anche da musica ed effetti sonori. Shutterstock è invece una piattaforma dedicata all’upload e al download di contenuti multimediali di tutti i tipi. 

MusicGen è stato realizzato da una divisione di Meta di nome Audiocraft. Il team ha potuto sfruttare il tokenizer audio proprietario EnCodec a 32Khz. Grazie a questo strumento è stato possibile elaborare in parallelo piùblocchi musicali, di dimensioni e peso ridotti

Per testare le potenzialità di MusicGen di Meta è possibile visitare il sito web di Hugging Face. Ma anche eseguire il processo localmente, scegliendo una tra le tre versioni di modello disponibili: quella da 300 milioni di parametri, quella da 1,5 miliardi di parametri e quella da 3,3 miliardi di parametri

A prescindere dal modello scelto, è comunque consigliabile eseguire MusicGen su un dispositivo con determinate caratteristiche base. Occorre prestare attenzione innanzitutto alla GPU, che dovrebbe contare almeno su 16 GB di RAM

Come usare MusicGen

L’utilizzo di MusicGen di Meta non è poi così diverso da quello dell’ormai noto ChatGPT. L’utente infatti non deve fare altro che scrivere una richiesta, cercando di descrivere nella maniera più dettagliata possibile che tipo di musica vorrebbe ascoltare. 

Come con ChatGPT, anche con MusicGen l’unico limite in tal senso è la fantasia di chi scrive. È possibile chiedere un pezzo che ricordi lo stile dell’Hip Hop americano anni ’90. Ma è anche possibile caricare un input molto più specifico: ad esempio un brano che si ispiri al genere metal, ma che preveda l’utilizzo di strumenti caraibici. 

I Tech-Quiz di Mister Plus

0/ 0
Risposte corrette
0' 0"
Tempo impiegato
Vai alla classifica

L’intelligenza artificiale accoglie ed elabora la richiesta, per poi restituire un brano inedito. In questa prima fase MusicGenrealizza brani molto brevi: la lunghezza media è di 12 secondi. Inoltre l’output non è sempre fedele alle specifiche inserite dall’utente. 

Allo stesso tempo il modello di MusicGen viene considerato addirittura migliore di quello di Google, per almeno due ordini di ragioni. Innanzitutto non richiede una rappresentazione semantica auto-supervisionata. E poi, in questo momento, prevede soltanto 50 passi di regressione automatica per ogni secondo di audio.

Per saperne di piùIntelligenza Artificiale, cos'è e cosa può fare per noi

Per saperne di piùSocial Media, la lista dei principali social media

A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Whatsapp
Segui le ultime notizie sul nostro canale Whatsapp
Immagine principale del blocco
Segui le ultime notizie sul nostro canale Whatsapp
Fda gratis svg
Iscriviti al canale gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.