Cosa sono i deepfake audio e come difendersi?

L'audio deepfake è più semplice da realizzare rispetto al video, ma è anche più difficile da scoprire

mettiti alla prova con il quiz di mr. Plus su Fogli Google

In un mondo in cui la tecnologia ha raggiunto livelli fino all'anno prima impensabili, tutto corre talmente veloce da diventare poco chiaro, sfumato, confuso e difficile da ricordare e seguire nel suo sviluppo. Un ambiente del genere è il terreno di coltura ideale per i video deepfake, che stanno infatti diventando un fenomeno esplosivo da qualche anno a questa parte. Anche perché è sempre più facile e sempre più economico creare deepfake e farli circolare con un tasso di viralità elevatissimo, coniugando l'ingegneria elettronica, quella del software e quella sociale. Un mix che fa tramare i polsi.

Ma c'è di peggio di un video deepfake: un audio deepfake. Se un video deepfake è ancora relativamente complesso da realizzare (il famoso deepfake di Barack Obama ha richiesto 56 ore di calcolo per un minuto di video, nel 2018), un audio deepfake richiede una potenza di calcolo molto inferiore. E ci offre anche molte meno ancore di salvezza, molti meno indizi per capire che siamo di fronte ad un falso. E, di conseguenza, è molto più pericoloso. Ecco cosa è l'audio deepfake, veramente, come si realizza e quali sfide lancia alla nostra società.

Audio deepfake: di cosa si tratta

audio deepfake

Partiamo dai termini: deepfake. "Deepfake" è l'unione di "fake", un falso, e "deep" che proviene invece dalla parola "deep learning". I deepfake, in pratica, sono dei falsi realizzati grazie a software che utilizzano algoritmi di deep learning, cioè di intelligenza artificiale.

Tramite questi algoritmi è possibile imitare la voce di una persona al fine di fargli dire cose che non ha mai detto. Esattamente come Obama non ha mai pronunciato le parole che gli abbiamo visto pronunciare nel famoso video deepfake. Ma se in quel video almeno era possibile intuire qualche piccola sbavatura utile a riconoscere il deepfake, ad esempio nella sincronizzazione tra l'audio e le immagini, in un audio deepfake c'è ben poco che ci può indirizzare verso la verità.

Se un audio deepfake è fatto bene, quindi, l'unica cosa che ci può mettere in allarme è una marcata differenza nel tono di voce della persona che (in teoria) sta parlando rispetto alla voce reale di quella persona. Questa differenza dipende dalla qualità dell'algoritmo di sintetizzazione audio utilizzato.

Fastweb Mobile Full

10,95€/mese

Internet 200 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

Come funziona l'audio sintetizzato

audio sintetizzatore

Tutti conosciamo i sinthetizer, quegli apparecchi elettronici che imitano il suono di uno strumento (o creano il suono di uno strumento inesistente) e che ormai sono alla base della musica pop. Quella tecnologia è la madre della tecnologia dietro i deepfake audio. Solo che la figlia è molto più evoluta.

Resemble AI e Descript, ad esempio, sono due società che hanno realizzato dei sintetizzatori audio in grado di riprodurre la nostra voce dopo averla sentita. Basta registrare delle frasi standard, aspettare qualche minuto e poi gli algoritmi restituiscono un modello molto accurato della nostra voce. Modello che può essere utilizzato per farci dire qualsiasi cosa.

Per arrivare a questo risultato il software ha dovuto fare la solita "gavetta" del deep learning: ha elaborato tonnellate di dati, affinandosi un "round" dopo l'altro fino ad arrivare ad un risultato accettabile. Sia Resemble AI che Descript offrono tool gratuiti online che possiamo usare per provare questa tecnologia. In realtà, usandoli, gli stiamo solo regalando dati per allenare gli algoritmi.

I rischi dell'audio deepfake

truffa telefonica

Qualcuno, arrivato a questo punto, potrebbe chiedersi quali sono i rischi di tutto questo. Sono tanti, probabilmente troppi, soprattutto a causa di una vecchia tecnologia che ancora è molto in voga: il telefono.

Chiunque potrebbe registrare la nostra voce al telefono e usare i file per realizzare un modello tramite gli algoritmi di deepfake audio. Certamente la qualità del risultato non sarebbe ottima, perché ottima non è la qualità dell'audio registrato, ma sarebbe più che sufficiente per fare una telefonata finta a nostro padre e chiedergli un bonifico perché siamo in difficoltà. O, peggio ancora, una telefonata ai nostri figli per dargli un appuntamento da qualche parte.

E se non siamo una persona qualunque, ma qualcuno con responsabilità politiche, il rischio è che un giorno ci svegliamo e leggiamo tra le ultime notizie che siamo intervenuti telefonicamente ad una nota tribuna politica per dichiarare cose assurde. Se invece abbiamo un ruolo di responsabilità in un'azienda il rischio è quello che la nostra voce sia utilizzata per convincere qualcuno a rivelare segreti industriali, o a cambiare la politica aziendale.

Non dovrebbero servire altri esempi per capire di cosa stiamo parlando. Piuttosto, è utile farsi una domanda: sapete quanti microfoni ascoltano la nostra voce tutti i giorni, tutto il giorno?

Si può riconoscere l'audio deepfake?

audio

Adesso che è chiaro a tutti che il problema del deepfake audio esiste, è bello grosso e può riguardare tutti noi anche se non siamo Barack Obama, è il caso di chiedersi se c'è ancora la speranza di difendersi. In altre parole: è possibile riconoscere un audio falso?

La buona notizia è che a differenza degli esseri umani i computer sono abbastanza bravi a riconoscere un fake. Ci riescono, paradossalmente, con altri algoritmi di intelligenza artificiale grazie ai quali ipotizzano quali caratteristiche dovrebbe avere una voce reale e le vanno a cercare nel file audio sospetto.

Questo perché un audio sintetizzato al computer può anche contenere frequenze che una persona specifica non riesce ad emettere o caratteristiche che il parlato naturale di un uomo non può avere. Ogni secondo del parlato contiene tra 8.000 e 50.000 campioni di dati che possono essere analizzati per scoprirlo.

Ad esempio i suoni di due vocali hanno sempre una separazione minima tra loro e quasi si fondono, perché non è fisicamente possibile pronunciare le vocali velocemente in modo separato a causa della velocità con cui i muscoli della bocca e le corde vocali riescono a muoversi.

Se il file analizzato contiene due vocali adiacenti pronunciate in modo ben scandito ad alta velocità, quindi, c'è qualcosa che non va. Se l'algoritmo trova tante cose che non vanno, allora è molto probabile che l'audio sia stato sintetizzato e non pronunciato da un essere umano in carne ed ossa.

A cura di Cultur-e

#DigitalDevelopment

#ComeFarePer

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

Fda

L'IA nel mondo del lavoro

L'IA nel mondo del lavoro

Impatti, sfide e opportunità

Iscriviti al corso gratuito

LinkedIn X Facebook WhatsApp Email

Boom di brani AI su Deezer, ma l'algoritmo limita la visibilità

Secondo fonti interne ogni giorno gli utenti caricano circa 20.000 brani realizzati esclusivamente con strumenti di intelligenza artificiale generativa

Digital Magazine

Google lancia l'AI che capisce i delfini, cosa può fare DolphinGemma

Il modello linguistico AI sviluppato da Google permette ai ricercatori di scomporre i suoni emessi dai delfini in token da utilizzare in ottica previsionale.

Digital Magazine

Da chatbot ad amico AI, cosa succede quando la relazione diventa umana

L’AI fa ormai parte della vita degli utenti, che vi si confrontano ogni giorno: cosa succede quando si instaura una relazione AI e i chatbot diventano amici

Scopri i corsi gratuiti della Fastweb Digital Academy

A. I. copywriting – Come usare l’intelligenza artificiale per creare contenuti

L’intelligenza artificiale sta facendo passi da gigante in tutti i campi: dalla gestione e interpretazione dei big data ai chatbot e virtual…

AI nel processo creativo del designer

AI nel processo creativo del designer offre una panoramica sull’applicazione dell’intelligenza artificiale nel campo del design. Questo video on…

AI per le moodboard: identità e colore

AI per le moodboard: identità e colore ci guida alla scoperta di come l’intelligenza artificiale possa diventare un prezioso alleato per i creativi,…