Dopo il successo di Stable Diffusion, il modello di intelligenza artificiale generativa text-to-image e StableCode, il Large Language Model (LLM) per la generazione di codice, la startup londinese votata all’open source Stability AI fa una nuova incursione nel regno “text-to-audio”. Lo fa con Stable Audio, che ha recentemente debuttato in pubblico, e consente a chiunque di creare clip musicali partendo da un semplice prompt di testo.
Dalle immagini, al codice, alla musica
La reputazione dell'azienda nel campo dell'intelligenza artificiale generativa si è consolidata con Stable Diffusion, che ha ricevuto un aggiornamento a luglio con il modello SDXL, che ne ha migliorato le capacità di composizione delle immagini. Nel mese di agosto, ha ampliato i propri orizzonti con un generatore AI di codice, StableCode.
Stable Audio è la nuova aggiunta al portafoglio della compagnia che rimpiazza Dance Diffusion che, lanciato un anno fa, era in grado di generare brevi clip audio casuali da una palette sonora limitata e costringeva l’utente a mettere a punto il modello da solo. Al contrario, Stable Audio può generare clip audio più lunghi e restituire all’utente più controllo con input testuali e scelta della durata.
Ed Newton-Rex, vicepresidente audio presso Stability AI, spiega: "Il concetto è davvero semplice, descrivi testualmente la musica o l'audio che desideri ascoltare e il nostro sistema lo genera per te". Nello specifico, si basa sulle tecniche AI di base che hanno reso Stable Diffusion un successo. Ma a differenza di questo, si avvale di un modello di latent diffusion addestrato su dati audio piuttosto che su immagini, per generare musica di alta qualità a 44,1 kHz.
Come funziona Stable Audio
Stable Audio si distingue dai precedenti metodi di generazione di tracce audio con la tecnologia, in particolare dalla "generazione simbolica" basata su file MIDI (Musical Instrument Digital Interface). Invece di fare affidamento su note ripetitive come un rullo di tamburi, Stable Audio funziona con campioni audio grezzi, promettendo un output di qualità superiore.
Il modello è stato addestrato su un set di oltre 800.000 brani musicali concessi in licenza dalla libreria audio AudioSparks, garantendo non solo audio di alta qualità ma anche metadati annessi. Zach Evans, la mente dietro il laboratorio di ricerca interno sulla generazione musicale di Stability AI, Harmonai, ha sottolineato la natura collaborativa e aperta di questo progetto: "Bisogna prendere le stesse tecnologie dallo spazio di generazione delle immagini e applicarle al dominio dell'audio".
Stable Audio vanta circa 1,2 miliardi di parametri, più o meno alla pari con la versione originale di Stable Diffusion. Stability AI ha sviluppato e addestrato il proprio modello di testo per la generazione di musica, incorporando tecniche CLAP (Contrastive Language Audio Pretraining). E sta rilasciando una guida rapida per assistere gli utenti nella creazione di istruzioni che producano i file audio effettivamente desiderati.
Libertà creativa e limiti etici
Sebbene gli utenti abbiano utilizzato i generatori AI di immagini per imitare stili di pittori famosi, Stable Audio non è addestrato a replicare la musica di artisti specifici, come i Beatles. Newton-Rex ha spiegato che i dati di training non includono musica delle etichette famose. Tuttavia, la libreria di AudioSparx contiene brani etichettati "nello stile di", creando potenzialmente un'area grigia dal punto di vista legale.
Stando a quanto dichiarato, l’obiettivo è consentire agli utenti di sfruttare la propria creatività e produrre musica originale. Inoltre, Stable Audio è progettato per generare musica strumentale, quindi la disinformazione e i deepfake vocali non saranno un problema, secondo Newton-Rex. Comunque, l’azienda sta lavorando per implementare standard di autenticità dei contenuti e filigrane nei modelli audio per affrontare i rischi emergenti nei contenuti generati dall’intelligenza artificiale.
Stable Audio è per tutti
Stability AI sta rendendo Stable Audio disponibile al pubblico attraverso tre piani di abbonamento. La versione gratuita con 20 brani al mese, ciascuno della durata massima di 45 secondi e per uso non commerciale. Il piano Pro, al prezzo di $ 12 al mese, offre 500 tracce e clip audio fino a 90 secondi. L’abbonamento Enterprise permette di personalizzare utilizzo e prezzo.
Con Stable Audio, Stability AI sta democratizzando la generazione di musica con l’AI, offrendo uno sbocco creativo a tutti, dagli aspiranti musicisti agli appassionati di audio. Intanto, aziende come Meta con AudioCraft e Google con MusicLM stanno già giocando la loro partita, ma per ora con cautela, riservando i modelli ai ricercatori.
Per saperne di più: Intelligenza Artificiale, cos'è e cosa può fare per noi