Microsoft ha presentato un nuovo modello di intelligenza artificiale per la sintesi vocale. Si chiama VALL-E e secondo quanto dichiarato dal colosso di Redmond, è in grado di imitare il timbro e il modo di parlare di una persona reale dopo aver ascoltato un campione audio di appena tre secondi.
Le capacità di sintesi vocale di VALL-E sono state addestrate usando la libreria audio LibriLight realizzata da Meta, che contiene 60 mila ore di discorsi in lingua inglese di oltre 7 mila oratori estratti, per la maggior parte, da audiolibri di pubblico dominio.
Microsoft lo ha definito un neural codec language model, costruito sulla base di EnCodec (un codec audio che utilizza tecniche di machine learning), sviluppato da Meta a ottobre del 2022. Alcuni sample vocali generati da VALL-E sono disponibili su un profilo GitHub dedicato.
VALL-E imita la voce umana
VALL-E si differenzia da altri metodi di sintesi vocale poiché invece di sintetizzare il parlato manipolando le forme d'onda, si occupa di generare codici di codec audio discreti da messaggi di testo e audio.
In altri termini, VALL-E analizza come "suona" una persona e suddivide queste informazioni in componenti discreti (o token) grazie a EnCodec. Infine, utilizza i dati di addestramento per confrontare ciò che "sa" su come suonerebbe quella voce se pronunciasse altre frasi al di fuori del campione di tre secondi.
VALL-E può apprendere una voce e sintetizzarla così da pronunciare qualsiasi cosa "text-to-speech" preservando le caratteristiche, le inflessioni e il tono emotivo di chi parla.
Oltre a conservare il timbro vocale e il tono emotivo di un oratore, VALL-E è anche in grado di imitare l'ambiente acustico dell'audio campione. Per esempio se la clip proviene da una telefonata, la resa dell'audio sintetizzato simulerà le caratteristiche acustiche di una conversazione telefonica, così come i riverberi e gli echi di discorsi in sale conferenze.
I ricercatori Microsoft ipotizzano che VALL-E possa essere utilizzato per applicazioni di sintesi vocale di alta qualità come l'editing vocale in cui una registrazione necessita modifiche provenienti da una trascrizione di testo, o ancora la creazione di contenuti audio anche in combinazione con altri modelli di intelligenza artificiale generativa come GPT-3.
Il rovescio della medaglia
Come nel caso di Chat GPT e altri tool super sofisticati che stanno emergendo in questi mesi, è facile intuire il potenziale di VALL-E, sia in positivo che in negativo. I video deepfake sono già da tempo una realtà concreta, e uno strumento come questo potrebbe non far altro che "migliorare" ancora un prodotto pericoloso, soprattutto dal punto di vista della diffusione di notizie false.
A fronte della possibilità di alimentare disinformazione e mistificazione, Microsoft non ha reso pubblico il codice di VALL-E per la sperimentazione. Consci del pericolo sociale che può rappresentare, i ricercatori concludono: "Poiché VALL-E potrebbe sintetizzare un discorso mantenendo l'identità del parlante, potrebbe comportare potenziali rischi nell'uso improprio del modello, come lo spoofing dell'identificazione vocale o l'impersonificazione di un oratore specifico. Per mitigare tali rischi, è possibile costruire un modello di rilevamento per discriminare se una clip audio è stata sintetizzata da VALL-E".
In ogni caso, Microsoft continua a dimostrare grande interesse nei confronti di questi strumenti AI-based. Appena emersa è l'indiscrezione secondo cui vorrebbe addirittura acquisire il controllo di OpenAI, la società che ha sviluppato Chat GPT.