Dopo il lancio di Muse, il nuovo modello di IA generativa text-to-image, i ricercatori di Google hanno sviluppato un’intelligenza artificiale chiamata MusicLM che è in grado di generare brani musicali di qualche minuto a partire da prompt di testo e di trasformare una melodia fischiata o canticchiata in altri strumenti musicali.
La struttura del modello di IA richiede capacità matematiche di alto livello per essere compresa. Ma semplificando, funziona sullo stesso principio dei sistemi di IA per la sintesi di immagini altamente dettagliate e realistiche come DALL-E 2 e Stable Diffusion. Analizzando una quantità enorme di dati, capisce come rispondere a indicazioni testuali producendo musica adeguata.
Google svela l'IA che produce musica da un testo
Al momento non si può testare liberamente. L'intento dei ricercatori è più che altro dimostrare il livello a cui lo sviluppo degli algoritmi è arrivato.
Ma Google ha caricato una serie di sample online, mostrando come sia in grado di generare brani di 30 secondi a partire da descrizioni lunghe un paragrafo, così come pezzi di cinque minuti generati da una o due parole come "techno melodico".
Un esempio di prompt è questo:
canzone elettronica riprodotta in un videogioco (0:00-0:15)
canto di meditazione suonato accanto a un fiume (0:15-0:30)
fuoco (0:30-0:45)
fuochi d’artificio (0:45-0:60)
Un sample che sembra prodotto da un umano con discrete competenze musicali. Inoltre, il modello è in grado di modificare la musica a seconda delle richieste, nonché creare clip di 10 secondi di strumenti come violoncello o maracas, generi particolari ma anche frasi aperte all’interpretazione come “musica da club futuristico”.
Capacità e limiti di MusicLM
Già in passato abbiamo sentito IA capaci di produrre musica. Negli anni ’90 sistemi computerizzati hanno ricevuto credito fra gli autori di canzoni pop, sebbene con grande supporto umano. E poi Riffusion, un tool basato sul motore di generazione di immagini StableDiffusion per trasformare le richieste di testo in spettrogrammi che vengono poi convertiti in musica.
Google però assicura che MusicLM può superare gli altri sistemi in termini di “qualità e aderenza al testo”, nonché per il fatto che può acquisire l’audio e copiare la melodia in maniera diretta. Un domani, un musicista potrebbe limitarsi a fischiettare il motivetto che ha in testa per produrre una nuova hit.
Meno precisa e naturale è la capacità di simulare la voce umana, anche se progetti recenti di Microsoft hanno evidenziato l'opportunità per un'IA di mimare il tono e la cadenza di un interlocutore reale, dopo solo qualche secondo di ascolto. Le voci umane in MusicLM sembrano abbastanza convincenti in termini di tono e suono, ma non hanno una qualità ottimale, c’è ancora qualche cosa di “robotico”.
Come con altre incursioni in questo tipo di intelligenza artificiale, Google è molto cauto e non ha intenzione di renderlo disponibile al pubblico a causa dei rischi di appropriazione indebita di contenuti creativi (plagio) e di potenziale travisamento culturale. Tuttavia, l’azienda ha dichiarato di voler pubblicare un set di dati con circa 5.500 coppie musica-testo per aiutare ad addestrare e valutare altre IA musicali.