Con la diffusione degli assistenti digitali in sempre più dispositivi, sono ormai molti gli utenti che restano affascinati dal modo in cui Alexa, Siri, Google Assistant & Co riescono a capire comandi vocali e dalle infinite possibilità che queste tecnologie posso portare alla nostra vita quotidiana. Allo stesso tempo, però, capita che gli assistenti digitali non capiscano esattamente cosa gli stiamo chiedendo e non riescano a rispondere come ci aspetteremmo. E questo può essere frustrante.
Certo, è possibile allenare gli assistenti vocali a capire quello che diciamo, ma la verità è che dovremmo smettere di usare (almeno per ora, in futuro chi può saperlo) il termine "capire". In effetti, se analizziamo bene la tecnologia che sta dietro Siri, Alexa e Google Assistant, scopriamo che in realtà questi assistenti non capiscono proprio niente!
Come funzionano gli assistenti digitali
Noi crediamo che quando chiediamo qualcosa ad un assistente gestito da un algoritmo, come Google Home o Amazon Echo, questo capisca cosa stiamo dicendo, interpreti la richiesta e fornisca la risposta. Non è affatto così: l'assistente ascolta la voce, riconosce le parole, le trasforma in testo e poi le confronta con un database contenente tutti i comandi a cui può rispondere. Se trova il comando, si limita a dare la risposta predefinita. Se non trova il comando, cerca di trovare un comando simile la cui risposta possa essere soddisfacente per l'utente. Se non trova nulla, alza le mani e risponde che non ha capito. Tutto qui, nessuna interpretazione del vero significato di cosa stiamo chiedendo, solo una comparazione tra quello che diciamo e l'archivio dei comandi già noti.
Come funziona il cervello degli umani
Al contrario, degli assistenti digitali, il cervello di un umano adulto è in grado di capire le parole e di interpretarne il significato e non si limita a confrontare le parole ascoltate con quelle già conosciute. Un esempio può chiarire questa differenza: se parlando con un amico gli chiediamo "Che cosa è quel pripupipu che sta in cielo? Quello lì, quello a forma di arco tutto colorato e a strisce...". È evidente che "pripupipu" è una parola inventata, che non esiste in nessuna lingua del mondo e men che meno in un database di un assistente digitale.
Google Home, Amazon Echo o qualunque altro assistente non riuscirebbe a dare una risposta perché non riuscirebbe a capire la parola. Un essere umano, invece, molto probabilmente riuscirebbe a capire che con quella parola inventata vogliamo dire "arcobaleno". Stesso discorso quando "non ci viene la parola" e pronunciamo frasi come "prendi il coso per scolare la pasta": chiunque capisce che abbiamo bisogno di uno scolapasta. Questo perché il cervello umano converte le parole in idee, riesce a cercare il significato di una parola dal contesto, riesce a ipotizzare una risposta prendendosi anche il rischio dell'ipotesi. Un algoritmo no, o almeno non quelli presenti oggi negli assistenti digitali che troviamo in commercio.
Gli assistenti digitali non possono andare oltre gli algoritmi
Un esempio di questo limite degli assistenti digitali lo offrono le skill di Alexa, cioè le estensioni all'assistente di Amazon che permettono di ampliare le possibilità dell'assistente. Se analizziamo il funzionamento di Geneva, la skill di General Electric dedicata alla gestione degli elettrodomestici smart del marchio americano, scopriamo che possiamo chiedere ad Alexa di impostare la temperatura del forno a 100 gradi, o a 120 gradi o a qualunque altra temperatura permessa dal forno. Ma se il forno è già a 100 gradi, non possiamo chiedere ad Alexa di aumentare la temperatura di altri 20 gradi: dovremo chiedere di impostare la temperatura a 120 gradi. Questo perché l'algoritmo non capirebbe il concetto di "aumentare la temperatura". Non è che non si può fare, semplicemente non è programmato per farlo.
I limiti degli assistenti digitali ne limiteranno la diffusione?
A questo punto è chiaro che alla base delle prestazioni di un assistente digitale ci sono soprattutto due cose: la capacità di trasformare i suoni delle parole in parole scritte e la grandezza del database delle parole e dei comandi. Allo stesso modo queste due caratteristiche possono diventare anche il limite di questi prodotti: un assistente con un database meno vasto potrebbe sembrare meno intelligente di uno con un database più ricco, perdendo posizioni di mercato. Stessa cosa se l'algoritmo Text to Speach è meno efficiente. Di sicuro con il tempo verranno sviluppati algoritmi di machine learning e intelligenza artificiale sempre più raffinati, che permetteranno agli assistenti digitali di imitare il funzionamento del nostro cervello in maniera sempre più raffinata. Quanto tempo ci vorrà per tutto questo, però, non lo sa neanche Alexa...
2 marzo 2019