Vall-e, l'intelligenza artificiale di Microsoft che imita la tua voce in 3 secondi

Ascolta l'articolo

La nuova IA di Microsoft è in grado di simulare la voce e persino riprodurre il tono e lo stato emotivo di una persona con una clip di soli 3 secondi

Shutterstock

Qual è il tuo Rapporto con l’Intelligenza Artificiale?
Fai il test

LinkedIn X Facebook WhatsApp Email

Crea una playlist
Condividi l'articolo

LinkedIn X Facebook WhatsApp Email

Microsoft ha presentato un nuovo modello di intelligenza artificiale per la sintesi vocale. Si chiama VALL-E e secondo quanto dichiarato dal colosso di Redmond, è in grado di imitare il timbro e il modo di parlare di una persona reale dopo aver ascoltato un campione audio di appena tre secondi.

Le capacità di sintesi vocale di VALL-E sono state addestrate usando la libreria audio LibriLight realizzata da Meta, che contiene 60 mila ore di discorsi in lingua inglese di oltre 7 mila oratori estratti, per la maggior parte, da audiolibri di pubblico dominio.

Microsoft lo ha definito un neural codec language model, costruito sulla base di EnCodec (un codec audio che utilizza tecniche di machine learning), sviluppato da Meta a ottobre del 2022. Alcuni sample vocali generati da VALL-E sono disponibili su un profilo GitHub dedicato.

Fastweb Mobile Full

10,95€/mese

Internet 200 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

VALL-E imita la voce umana

VALL-E si differenzia da altri metodi di sintesi vocale poiché invece di sintetizzare il parlato manipolando le forme d'onda, si occupa di generare codici di codec audio discreti da messaggi di testo e audio.

In altri termini, VALL-E analizza come "suona" una persona e suddivide queste informazioni in componenti discreti (o token) grazie a EnCodec. Infine, utilizza i dati di addestramento per confrontare ciò che "sa" su come suonerebbe quella voce se pronunciasse altre frasi al di fuori del campione di tre secondi.

VALL-E può apprendere una voce e sintetizzarla così da pronunciare qualsiasi cosa "text-to-speech" preservando le caratteristiche, le inflessioni e il tono emotivo di chi parla.

Oltre a conservare il timbro vocale e il tono emotivo di un oratore, VALL-E è anche in grado di imitare l'ambiente acustico dell'audio campione. Per esempio se la clip proviene da una telefonata, la resa dell'audio sintetizzato simulerà le caratteristiche acustiche di una conversazione telefonica, così come i riverberi e gli echi di discorsi in sale conferenze.

I ricercatori Microsoft ipotizzano che VALL-E possa essere utilizzato per applicazioni di sintesi vocale di alta qualità come l'editing vocale in cui una registrazione necessita modifiche provenienti da una trascrizione di testo, o ancora la creazione di contenuti audio anche in combinazione con altri modelli di intelligenza artificiale generativa come GPT-3.

Il rovescio della medaglia

Come nel caso di Chat GPT e altri tool super sofisticati che stanno emergendo in questi mesi, è facile intuire il potenziale di VALL-E, sia in positivo che in negativo. I video deepfake sono già da tempo una realtà concreta, e uno strumento come questo potrebbe non far altro che "migliorare" ancora un prodotto pericoloso, soprattutto dal punto di vista della diffusione di notizie false.

A fronte della possibilità di alimentare disinformazione e mistificazione, Microsoft non ha reso pubblico il codice di VALL-E per la sperimentazione. Consci del pericolo sociale che può rappresentare, i ricercatori concludono: "Poiché VALL-E potrebbe sintetizzare un discorso mantenendo l'identità del parlante, potrebbe comportare potenziali rischi nell'uso improprio del modello, come lo spoofing dell'identificazione vocale o l'impersonificazione di un oratore specifico. Per mitigare tali rischi, è possibile costruire un modello di rilevamento per discriminare se una clip audio è stata sintetizzata da VALL-E".

In ogni caso, Microsoft continua a dimostrare grande interesse nei confronti di questi strumenti AI-based. Appena emersa è l'indiscrezione secondo cui vorrebbe addirittura acquisire il controllo di OpenAI, la società che ha sviluppato Chat GPT.

A cura di Cultur-e

Topic:

Intelligenza Artificiale

#CuriositaTech

#DigitalDevelopment

#NuoveTecnologie

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

TecnologicaMente

Qual è il tuo Rapporto con l’Intelligenza Artificiale?

Qual è il tuo Rapporto con l’Intelligenza Artificiale?

Scopri se sei un entusiasta dell’AI, un utilizzatore cauto o un tradizionalista scettico!

Fai il test gratuito

LinkedIn X Facebook WhatsApp Email

Bonifico istantaneo, attenzione alle truffe

Il bonifico istantaneo ha diversi vantaggi, ma anche dei rischi e una maggiore possibilità di essere utilizzato nelle truffe. Cosa c’è da sapere per proteggersi

Dev & Security

Apple rilascia la beta due di iOS 18.5, ma le attenzioni sono per iOS 19

Apple ha rilasciato nuovi aggiornamenti per la versione di iOS 18, ma gli occhi sono tutti puntati sul futuro imponente rilascio: iOS 19. Cosa ci aspetta

Dev & Security

Cos'è Gemini Live e come cambiano le tue ricerche immagini e video

Google ha confermato che le funzioni di Gemini Live per la condivisione dello schermo e utilizzo della fotocamera saranno disponibili gratuitamente per tutti

Scopri i corsi gratuiti della Fastweb Digital Academy

Introduzione agli NFT

Abbiamo sentito parlare degli NFT per merito delle famose scimmie milionarie, le Bored Apes, e per molti sono delle immagini con dei costi…

Introduzione alla programmazione in Python

Il Deep Learning è una tecnologia che comprende diverse discipline e le principali sono l’informatica e la programmazione. Il Deep Learning, infatti…

Low-Code/No-Code: sbloccare efficienza, innovazione e crescita con l'automazione e le applicazioni senza codice