L’AI sembra ormai pronta a compiere un passo importantissimo in termini di accessibilità: imparare a comprendere la lingua dei segni.
Al giorno d’oggi le principali tecnologie di riconoscimento e assistenza vocale hanno serie difficoltà a interagire con utenti che comunicano attraverso le varie lingue dei segni internazionali.
Più in generale la maggior parte dei servizi digitali è progettata per un uso attraverso la comunicazione scritta o orale. Dunque rischia di lasciare indietro le persone non udenti o ipoudenti che non abbiano imparato il linguaggio parlato.
Ebbene, grazie ai ricercatori del Barcelona Supercomputing Center (BSC) e dell’Universitat Politècnica de Catalunya (UPC) è stata sviluppata un’intelligenza artificiale che capisce la lingua dei segni e la converte in testo.
In potenza si tratta di una vera e propria rivoluzione, che potrebbe aumentare esponenzialmente l’accessibilità della comunità dei non udenti alle più recenti tecnologie AI.
Un modello di apprendimento automatico in stile ChatGPT
Alla base di questa intelligenza artificiale sembra esserci un modello di apprendimento automatico non troppo diverso da quello alla base di tool come ChatGPT.
Si tratta di un modello in stile trasformatore, che sfrutta il meccanismo di auto-attenzione per imparare ad applicare un input specifico a un contesto.
Le reti neurali ricorrono all’auto-attenzione per andare oltre la singola parola. Per creare collegamenti di senso e leggere una frase nel suo insieme.
Il modello di apprendimento utilizzato permette inoltre di apprendere molto velocemente. Dal punto di vista tecnico garantisce un throughput rapidissimo: un’alta frequenza di trasmissione dei dati, che consente di gestire set su larga scala.
Il set di dati di formazione utilizzato dai team di ricerca di BSC e UCP proviene dal set multimodale e multi visibile How2Sign: un totale di circa 80 ore di video didattici realizzati nella lingua dei segni statunitense, con traduzione corrispondente in inglese scritto.
Come funziona l’AI che capisce la lingua dei segni
Stando ai ricercatori la prima sfida affrontata per realizzare l’AI deriva direttamente dalla variabilità e la complessità della lingua dei segni.
In questo genere di comunicazione il singolo gesto può essere influenzato da tantissimi elementi diversi: a partire dal contesto, fino ad arrivare all’aspetto del segnante.
Per superare questo ostacolo tutti i dati del set sono stati pre-elaborati con un metodo di estrazione video di nome Inflated 3D Networks (I3D).
Il metodo I3D permette di applicare un filtro 3D al video e di estrapolare informazioni spazio temporali di varia natura. Questa attività di pre-elaborazione ha permesso di realizzare traduzioni qualitativamente superiori. Ma anche di ridurre la complessità del vocabolario in input.
Il modello ad oggi è in grado di realizzare traduzioni considerate “significative”, ma non è ancora perfetto. I team di BSC e UCP sono al lavoro per implementare la loro intelligenza artificiale.
Nel frattempo la comunità scientifica internazionale può iniziare a studiare la loro AI: un contributo oltremodo prezioso per chiunque sia impegnato a garantire un’accessibilità sempre maggiore alle tecnologie. E, più in generale, per chiunque ritiene che l’intelligenza artificiale possa contribuire a salute e benessere dei cittadini.
Per saperne di più: Intelligenza Artificiale, cos'è e cosa può fare per noi