Mentre la maggior parte dei cambiamenti che OpenAI ha apportato a ChatGPThanno riguardato ciò che il bot di intelligenza artificiale generativa poteva fare, ora il focus è sulla modalità di interazione con l’essere umano.
La società è pronta a lanciare una nuova versione di ChatGPT, per consentire agli utenti di conversare con l’AI non solo per mezzo di prompt inseriti nella casella di testo, ma tramite comandi vocali oppure caricando un’immagine.
Queste interessanti funzionalità verranno rese disponibili agli abbonati ChatGPT nelle prossime settimane e a tutti gli altri poco dopo, secondo quanto rivelato dalla società. Tuttavia, è essenziale bilanciare l’innovazione con un uso responsabile per garantire che questi potenti strumenti costituiscano un vantaggio piuttosto che un danno.
Comandi vocali: un'esperienza familiare ma migliorata
L'introduzione dei comandi vocali avvicina ChatGPT agli assistenti virtuali come Amazon Alexa e Google Assistant. Ora gli utenti potranno semplicemente toccare un pulsante e pronunciare la propria domanda. ChatGPT convertirà prontamente le parole in testo, elaborerà la query utilizzando il modello linguistico di grandi dimensioni sottostante, e una volta ottenuta la risposta, la pronuncerà ad alta voce.
OpenAI nutre grandi speranze che questa nuova funzione non solo renda l’interazione più fluida, ma fornisca anche risposte più accurate e approfondite, grazie ai miglioramenti tecnologici sottostanti. Tanto che la maggior parte degli assistenti vocali sembra si stia sottoponendo ad una revisione per fare affidamento sui LLM.
In questa corsa, la società è in prima linea con il modello Whisper che gestisce la conversione speech-to-text. Inoltre, sta lanciando un nuovo modello di sintesi vocale all’avanguardia, promettendo di generare audio molto simili al parlato umano da brevi frammenti di contenuto parlato.
Questo progresso suggerisce un futuro entusiasmante per le voci sintetiche, con potenziali applicazioni in campi come la traduzione di podcast in più lingue preservando le qualità tonali uniche della voce del podcaster originale. Che è quello che OpenAI sta facendo con Spotify.
Tuttavia, si apre un vaso di Pandora di potenziali usi impropri. OpenAI lo riconosce e sottolinea i rischi che ne derivano, inclusa la possibilità che attori malevoli possano impersonare personaggi pubblici o perpetrare frodi.
In risposta a queste preoccupazioni, prevede di adottare un approccio misurato limitando la disponibilità del modello, garantendo che rimanga entro confini rigorosi, limitato a casi d’uso e partnership specifiche.
La ricerca di immagini arriva su ChatGPT
La funzionalità di ricerca immagini in ChatGPT assomiglia a Google Lens, offrendo agli utenti la possibilità di scattare una foto di un oggetto o di una scena e ricevere informazioni pertinenti in risposta.
Nel caso di ChatGPT, si può migliorare le domande utilizzando lo strumento di disegno dell'app o accompagnando l'immagine con richieste parlate o digitate. Ciò che distingue questa funzionalità dal noto servizio di Big G è la natura interattiva del chatbot di OpenAI, che consente agli utenti il “botta e risposta”.
Tuttavia, l’uso della ricerca di immagini presenta potenziali sfide, soprattutto quando si ha a che fare con immagini di individui. OpenAI afferma di aver deliberatamente limitato la capacità di ChatGPT di analizzare e fare dichiarazioni dirette sulle persone.
Questa decisione è guidata da preoccupazioni in termini di accuratezza e privacy, e mira a garantire che l’intelligenza artificiale non invada i confini personali.
Bilanciare il progresso con la responsabilità
Quasi un anno dopo il debutto di ChatGPT, OpenAI continua la sua ricerca per migliorare le funzionalità e le capacità del bot, procedendo con cautela per evitare di introdurre problemi e sfide impreviste.
Anche questi ultimi aggiornamenti, l’azienda ha adottato un approccio misurato, ponendo intenzionalmente limitazioni alle capacità dei suoi nuovi modelli. Tuttavia, è evidente che questo approccio può essere solo una soluzione temporanea.
Con la crescita dell’adozione del controllo vocale e della ricerca di immagini e con l’evoluzione di ChatGPT in un vero assistente virtuale multimodale, il compito di mantenere i confini etici diventa sempre più complesso. La sfida sta nel trovare il delicato equilibrio tra innovazione e implementazione responsabile.
Per saperne di più: ChatGPT, cos'è, come funziona, a cosa serve, come usarla gratis