Meta presenta MusicGen, l'AI open-source che crea musica da suoni e testo

Ascolta l'articolo

MusicGen è un modello di linguaggio open source realizzato da un team Meta, che sfrutta il deep learning per creare melodie in base alle richieste scritte dell’utente

Koshiro K / Shutterstock.com

mettiti alla prova con il quiz di mr. Plus su Intelligenza Artificiale

LinkedIn X Facebook WhatsApp Email

Crea una playlist
Condividi l'articolo

LinkedIn X Facebook WhatsApp Email

Con MusicGen, Meta prova a lasciare il segno nella corsa all’intelligenza artificiale generativa. Negli ultimi anni gli utenti hanno visto nascere algoritmi basati su AI e tool in grado di realizzare i task più disparati: a partire da ChatGPT e la sua capacità di tradurre input testuali in output scritti. Fino ad arrivare ai modelli dedicati alla creazione di immagini e video.

Anche MusicGen è un modello di linguaggio che sfrutta il deep learning. Ma, a differenza delle AI elencate in precedenza, punta a generare musica inedita. L’utente inserisce la propria richiesta testuale e il software la trasforma in una melodia.

Un elemento molto interessante di MusicGen è che il suo modello è interamente open source. Ciò vuol dire che gli sviluppatori di tutto il mondo potranno studiarlo e magari utilizzarlo per realizzare strumenti di AI ancora più avanzati.

Come funziona MusicGen

Il modello su cui si basa MusicGen è lo stesso Generative Pre-trained Transformer portato al successo dal team di OpenAI con il sopracitato ChatGPT.

Fastweb Mobile Full

10,95€/mese

Internet 200 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

Per addestrare il modello gli sviluppatori hanno fatto uso di più o meno 20.000 ore di musica preesistente. La metà di questo archivio è composta da brani offerti con licenza, caricati in alta qualità. L’altra metà è composta da tracce provenienti da Pond5 e Shutterstock.

Pond5 è uno store online espressamente dedicato ai media liberi da royalty: le sue libraries sono composte da fotografie e filmati, ma anche da musica ed effetti sonori. Shutterstock è invece una piattaforma dedicata all’upload e al download di contenuti multimediali di tutti i tipi.

MusicGen è stato realizzato da una divisione di Meta di nome Audiocraft. Il team ha potuto sfruttare il tokenizer audio proprietario EnCodec a 32Khz. Grazie a questo strumento è stato possibile elaborare in parallelo piùblocchi musicali, di dimensioni e peso ridotti.

Per testare le potenzialità di MusicGen di Meta è possibile visitare il sito web di Hugging Face. Ma anche eseguire il processo localmente, scegliendo una tra le tre versioni di modello disponibili: quella da 300 milioni di parametri, quella da 1,5 miliardi di parametri e quella da 3,3 miliardi di parametri.

A prescindere dal modello scelto, è comunque consigliabile eseguire MusicGen su un dispositivo con determinate caratteristiche base. Occorre prestare attenzione innanzitutto alla GPU, che dovrebbe contare almeno su 16 GB di RAM.

Come usare MusicGen

L’utilizzo di MusicGen di Meta non è poi così diverso da quello dell’ormai noto ChatGPT. L’utente infatti non deve fare altro che scrivere una richiesta, cercando di descrivere nella maniera più dettagliata possibile che tipo di musica vorrebbe ascoltare.

Come con ChatGPT, anche con MusicGen l’unico limite in tal senso è la fantasia di chi scrive. È possibile chiedere un pezzo che ricordi lo stile dell’Hip Hop americano anni ’90. Ma è anche possibile caricare un input molto più specifico: ad esempio un brano che si ispiri al genere metal, ma che preveda l’utilizzo di strumenti caraibici.

L’intelligenza artificiale accoglie ed elabora la richiesta, per poi restituire un brano inedito. In questa prima fase MusicGenrealizza brani molto brevi: la lunghezza media è di 12 secondi. Inoltre l’output non è sempre fedele alle specifiche inserite dall’utente.

Allo stesso tempo il modello di MusicGen viene considerato addirittura migliore di quello di Google, per almeno due ordini di ragioni. Innanzitutto non richiede una rappresentazione semantica auto-supervisionata. E poi, in questo momento, prevede soltanto 50 passi di regressione automatica per ogni secondo di audio.

Per saperne di più: Intelligenza Artificiale, cos'è e cosa può fare per noi

Per saperne di più: Social Media, la lista dei principali social media

A cura di Cultur-e

Topic:

Intelligenza Artificiale

Social Consumer

#CuriositaTech

#NuoveTecnologie

#Social

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

Segui le ultime notizie sul nostro canale Whatsapp

Segui le ultime notizie sul nostro canale Whatsapp

Iscriviti al canale gratuito

LinkedIn X Facebook WhatsApp Email

Come criptare un hard disk esterno

A cosa serve criptare un hard disk esterno e quali sono i software da utilizzare presenti di default su Windows, macOS e Linux. La guida completa sull’argomento

Dev & Security

I Copilot+ PC con chip Intel e AMD ottengono nuove funzioni AI da Microsoft

Microsoft ha confermato ufficialmente l’arrivo delle funzioni di Windows basate sull’intelligenza artificiale sui Copilot+ PC con chip prodotti da Intel e AMD

Dev & Security

OpenAI annuncia un nuovo modello GPT open source, perché e a cosa serve

OpenAI è tra le realtà che maggiormente hanno contribuito allo sviluppo di modelli AI efficienti: il nuovo progetto prevede un GPT gratuito e open source

Scopri i corsi gratuiti della Fastweb Digital Academy

Introduzione agli NFT

Abbiamo sentito parlare degli NFT per merito delle famose scimmie milionarie, le Bored Apes, e per molti sono delle immagini con dei costi…

Introduzione alla programmazione in Python

Il Deep Learning è una tecnologia che comprende diverse discipline e le principali sono l’informatica e la programmazione. Il Deep Learning, infatti…

Low-Code/No-Code: sbloccare efficienza, innovazione e crescita con l'automazione e le applicazioni senza codice