login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Riconoscimento vocale, storia e applicazioni future

Grazie all'introduzione di machine learning e intelligenza artificiale, i sistemi di riconoscimento vocale sono diventati accuratissimi. Ma la strada è ancora lunga

Riconoscimento vocale

Grazie ad applicazioni e software come Siri, Assistente Google, Alexa e Cortana è entrato prepotentemente a far parte della nostra quotidianità, tanto da poter essere considerato una presenza costante in qualunque attività svolgiamo. Anzi, in alcune occasioni sembra che ci sia sempre stato. Ma non è affatto così: il riconoscimento vocale è una tecnologia piuttosto giovane e, tutt'oggi, in piena fase di sviluppo e perfezionamento. Così, anche se può sembrare perfetta, la strada che deve percorrere è ancora molto lunga.

Discorso analogo per quanto riguarda le applicazioni e l'uso che se ne fa. Gli assistenti virtuali sono sicuramente una delle novità più interessanti del settore della telefonia mobile degli ultimi anni, ma sembrano essere in qualche modo una limitazione di una tecnologia dalle possibilità non del tutto esplorate. Così, ripercorrendo in parte le orme già percorse dai chatbot, il riconoscimento vocale sarà l'anima dell'assistenza telefonica al cliente e non solo: il campo delle possibili applicazioni è potenzialmente sterminato.

 

Tutto nasce dall'assistenza al cliente

 

Agli albori del riconoscimento vocale

Non che fosse stato ideato per altro, il riconoscimento vocale. Già a cavallo tra la fine del XX secolo e l'inizio del XXI, diverse aziende impiegano tecnologie di questo genere per liberare da parte del lavoro gli affollati centri assistenza telefonici. In quegli anni il tasso di precisione del riconoscimento vocale si attesta attorno all'80%: un risultato discreto, viste le tecnologie utilizzate, ma non sempre il servizio ha standard di qualità soddisfacenti. Bisogna però dire che le applicazioni (e i risultati) dipendono in gran parte dalla lingua e dal vocabolario a disposizione degli algoritmi: il funzionamento di questi primi sistemi è basato sul confronto tra ciò che si ascolta e le parole presenti nel database. Basta anche la minima differenza nell'inflessione o nella pronuncia, insomma, per causare un errore di decifrazione.

Entrano in campo intelligenza artificiale e machine learning

I primi passi falsi (se così si può dire) non hanno però scoraggiato nuove società dall'investire nel settore. Al fianco dei player storici (come Nuance) arrivano ben presto società come Google, Microsoft, Apple, IBM e Amazon, convinte che il riconoscimento vocale sarà un elemento centrale per le interazioni uomo-macchina negli anni a venire.

 

Siri, primo assistente vocale per smartphone

 

A dare una svolta sostanziale è Apple, che nel 2011 introduce Siri come assistente vocale personale "di serie" a bordo dei suoi iPhone. A differenza di quanto accadeva in passato, Siri fa del machine learning e dell'intelligenza artificiale le sue armi in più: impiegando queste due tecnologie, il sistema di riconoscimento vocale Apple può fare a meno di lunghi periodi di apprendimento e non ha necessità di essere rimodulato ogni qualvolta si deve introdurre una nuova lingua. Sarà l'intelligenza artificiale, infatti, a dedurre i costrutti grammaticali e occuparsi del riconoscimento delle frasi ascoltate.

Tra Natural Language Processing e Natural Language Understandig

I risultati ottenuti da Apple con l'introduzione del machine learning e dell'intelligenza artificiale hanno ovviamente spinto tutti gli altri attori sulla stessa strada. I vari Google Assistente, Alexa e Cortana – solo per citare gli assistenti dei big della Silicon Valley – sfruttano tutti diversi algoritmi di AI per offrire ai loro utenti i migliori risultati. Non ci si deve dunque sorprendere se oggi il tasso di precisione dei sistemi di riconoscimento vocale più avanzati si attestano al 94,9%, lo stesso delle persone in carne e ossa.

Il processo di sviluppo di questi sistemi, ovviamente, non si arresta qui. Gli investimenti, in particolare, sono concentrati sul Natural Language Understanding (NLU, "Comprensione del linguaggio naturale" in italiano), una branca del Natural Language Processing (NPU, "Elaborazione del linguaggio naturale" nella nostra lingua). Perfezionando i sistemi di NLU, infatti, le varie aziende attive in questo settore sperano di alzare ulteriormente il tasso di precisione, sino ad arrivare alla fatidica soglia del 100%. Grazie anche al deep learning, alcune particolari applicazioni e software di riconoscimento vocale sono in grado di comprendere più comandi contemporaneamente e ordinarli in base a una scala di priorità preassegnata.

 

Presto le auto potranno essere controllate con la voce

 

Assistenza al cliente, vendite telefoniche, sicurezza informatica

Come già detto, l'assistenza clienti è uno dei motori che ha permesso lo sviluppo delle tecnologie del riconoscimento vocale. E ancora oggi è una delle applicazioni principali di questi sistemi: in futuro ci capiterà sempre più spesso di ricevere assistenza da una voce computerizzata anziché da un centralinista in carne e ossa. Ma le applicazioni del riconoscimento vocale sono potenzialmente infinite.

Nel campo dell'interazione uomo-macchina, ad esempio, il riconoscimento vocale sembra essere destinato a dover sostituire le varie interfacce grafiche touch, tastiere e mouse vari. Siri, Assistente Google gli altri voice assistant diventeranno sempre più accurati e sempre più centrali nell'utilizzo quotidiano di smartphone, televisori, elettrodomestici e anche automobili.

A queste due applicazioni dovrebbero presto aggiungersene delle altre. Sistemi di riconoscimento vocale dovrebbero essere applicati ai processi di vendita via telefono: dallo studio e dall'analisi delle interazioni "umane", sistemi di questo genere dovrebbero essere in grado di scovare metodi per efficientare l'intero processo e mettere in atto tecniche di vendita più persuasive e vincenti.

La voce – e il suo riconoscimento – sarà anche la chiave della sicurezza informatica del futuro. Il timbro di voce di ognuno di noi, infatti, può essere paragonato a una sorta di impronta digitale: unica e univoca, ci aiuta a distinguerci da tutti gli altri abitanti del nostro pianeta. Per questo motivo la biometria vocale dovrebbe ben presto sostituire sia la scansione delle impronte digitali sia il riconoscimento del volto come chiave d'accesso ai nostri dati più privati.

A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Fda
Prompt engineering
Immagine principale del blocco
Prompt engineering
Fda gratis svg
Come interrogare le intelligenze artificiali
Iscriviti al corso gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.