login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Vall-e, l'intelligenza artificiale di Microsoft che imita la tua voce in 3 secondi

Ascolta l'articolo

La nuova IA di Microsoft è in grado di simulare la voce e persino riprodurre il tono e lo stato emotivo di una persona con una clip di soli 3 secondi

intelligenza artificiale voce Shutterstock

Microsoft ha presentato un nuovo modello di intelligenza artificiale per la sintesi vocale. Si chiama VALL-E e secondo quanto dichiarato dal colosso di Redmond, è in grado di imitare il timbro e il modo di parlare di una persona reale dopo aver ascoltato un campione audio di appena tre secondi.

Le capacità di sintesi vocale di VALL-E sono state addestrate usando la libreria audio LibriLight realizzata da Meta, che contiene 60 mila ore di discorsi in lingua inglese di oltre 7 mila oratori estratti, per la maggior parte, da audiolibri di pubblico dominio.

Microsoft lo ha definito un neural codec language model, costruito sulla base di EnCodec (un codec audio che utilizza tecniche di machine learning), sviluppato da Meta a ottobre del 2022. Alcuni sample vocali generati da VALL-E sono disponibili su un profilo GitHub dedicato.

VALL-E imita la voce umana

VALL-E si differenzia da altri metodi di sintesi vocale poiché invece di sintetizzare il parlato manipolando le forme d'onda, si occupa di generare codici di codec audio discreti da messaggi di testo e audio. 

In altri termini, VALL-E analizza come "suona" una persona e suddivide queste informazioni in componenti discreti (o token) grazie a EnCodec. Infine, utilizza i dati di addestramento per confrontare ciò che "sa" su come suonerebbe quella voce se pronunciasse altre frasi al di fuori del campione di tre secondi.

VALL-E può apprendere una voce e sintetizzarla così da pronunciare qualsiasi cosa "text-to-speech" preservando le caratteristiche, le inflessioni e il tono emotivo di chi parla.

Oltre a conservare il timbro vocale e il tono emotivo di un oratore, VALL-E è anche in grado di imitare l'ambiente acustico dell'audio campione. Per esempio se la clip proviene da una telefonata, la resa dell'audio sintetizzato simulerà le caratteristiche acustiche di una conversazione telefonica, così come i riverberi e gli echi di discorsi in sale conferenze.

I ricercatori Microsoft ipotizzano che VALL-E possa essere utilizzato per applicazioni di sintesi vocale di alta qualità come l'editing vocale in cui una registrazione necessita modifiche provenienti da una trascrizione di testo, o ancora la creazione di contenuti audio anche in combinazione con altri modelli di intelligenza artificiale generativa come GPT-3.

Il rovescio della medaglia

Come nel caso di Chat GPT e altri tool super sofisticati che stanno emergendo in questi mesi, è facile intuire il potenziale di VALL-E, sia in positivo che in negativo. I video deepfake sono già da tempo una realtà concreta, e uno strumento come questo potrebbe non far altro che "migliorare" ancora un prodotto pericoloso, soprattutto dal punto di vista della diffusione di notizie false.

A fronte della possibilità di alimentare disinformazione e mistificazione, Microsoft non ha reso pubblico il codice di VALL-E per la sperimentazione. Consci del pericolo sociale che può rappresentare, i ricercatori concludono: "Poiché VALL-E potrebbe sintetizzare un discorso mantenendo l'identità del parlante, potrebbe comportare potenziali rischi nell'uso improprio del modello, come lo spoofing dell'identificazione vocale o l'impersonificazione di un oratore specifico. Per mitigare tali rischi, è possibile costruire un modello di rilevamento per discriminare se una clip audio è stata sintetizzata da VALL-E".

In ogni caso, Microsoft continua a dimostrare grande interesse nei confronti di questi strumenti AI-based. Appena emersa è l'indiscrezione secondo cui vorrebbe addirittura acquisire il controllo di OpenAI, la società che ha sviluppato Chat GPT.

A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Whatsapp
Segui le ultime notizie sul nostro canale Whatsapp
Immagine principale del blocco
Segui le ultime notizie sul nostro canale Whatsapp
Fda gratis svg
Iscriviti al canale gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.