In Breve (TL;DR)
- I ricercatori del MIT CSAIL hanno sviluppato un’AI in grado di comprendere e riprodurre suoni umani, dalle imitazioni di animali a soffio del vento, replicando fedelmente le emissioni sonore naturali.
- Il modello AI è stato addestrato attraverso tre fasi: generazione di suoni realistici, interpretazione dei significati distintivi e ragionamento sulle modalità espressive umane, aprendo nuove prospettive per applicazioni creative e accademiche legate al suono.
Un’intelligenza artificiale in grado di comprendere e riprodurre i suoni emessi dall’essere umano: questo il risultato straordinario che ha prodotto il lavoro di un team di ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL).
Questo vuol dire che l’AI sviluppata è in grado di comprendere il significato dell’imitazione del verso di un animale piuttosto che del soffio del vento. E poi di creare autonomamente delle simulazioni sonore fedeli a ciò che viene generalmente riprodotto dalla laringe, la gola, la lingua e le labbra umane.
Ma non finisce qui. I co-autori principali di questo strumento Kartik Chandra, Karima Ma e Matthew Caren hanno dichiarato che l’obiettivo da raggiungere è un realismo paragonabile a quello tipico dell’espressione visiva.
In che modo è possibile insegnare all’AI l’arte dell’imitazione
Il modello di intelligenza artificiale generativa sviluppato dal MIT CSAIL è stato sviluppato attraverso tre processi distinti. Innanzitutto è stato sviluppato un modello base di AI, che aveva il mandato di generare imitazioni sonore simili ai suoni tipici del mondo reale.
Dopodiché è stato sviluppato un modello di natura più comunicativa, che aveva il compito di distinguere in che modo un suono diventa significativo o distintivo per chi lo ascolta.
Questo modello aveva ad esempio il compito di capire perché e in che modo determinati suoni vengono considerati particolarmente caratteristici e, di conseguenza, vengono scelti dall’uomo nel momento in cui vuole imitare qualcuno o qualcosa.
Infine è stato aggiunto un terzo e ultimo livello di ragionamento al modello, che aveva l’obiettivo di aiutare l’AI a capire ancora meglio le modalità espressive dell’essere umano.
Si pensi in tal senso a come può variare uno stesso suono in base alla diversa intensità con cui viene emesso. Ma anche alle ragioni contestuali che possono portare una persona ad emettere un suono più o meno forte, grave, acuto o leggero.
Cosa aspettarsi dalle AI in relazione al suono
Le potenzialità di questi nuovi strumenti di intelligenza artificiale sono ancora tutte da scoprire, ma è già possibile fare alcune ipotesi, suffragate dalle parole degli stessi esperti del MIT CSAIL.
Innanzitutto, chiunque lavora col suono potrebbe avere nuove interessanti modalità di dialogo con i chatbot o, più in generale, i tool AI. Si pensi in tal senso ai musicisti, che potrebbero arrivare a creare prompt integrando il testo con le note o gli accordi emessi dal loro strumento.
A ciò si aggiunge la sopracitata sfida del realismo. In questo senso nuove soluzioni di intelligenza artificiale potrebbero rivoluzionare l’approccio attuale alle onomatopee, con risvolti ancora tutti da immaginare dal punto di vista accademico.
Bisogna infatti considerare che lo studio del suono non riguarda una sola branca del sapere, ma può coinvolgere la linguistica, la fonetica, la fisiologia e addirittura le diverse scienze sociali e del comportamento.
Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi