login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Intelligenza artificiale multimodale, cos’è e a cosa serve

Ascolta l'articolo

Cos’è l’intelligenza artificiale multimodale, come funziona e in che modo rivoluzionerà il settore delle AI. Tutto ciò che c’è da sapere sulla nuova tecnologia

AI Multimodale Eyal Shtark/Shutterstock

L’intelligenza artificiale è una tecnologia in continua evoluzione, uno strumento che nel giro di pochissimi anni ha compiuto passi da gigante, arrivando a monopolizzare tutti i settori della tecnologia, stravolgendo completamente le regole del gioco.

Tra le novità sul mercato, l’intelligenza artificiale multimodale, una “nuova” idea di AI che grazie ad alcuni nomi noti del settore (come Google e OpenAI, ad esempio) si sta diffondendo a macchia d’olio. Scopriamo cos’è e come funziona.

Cos’è l’intelligenza artificiale multimodale

Intelligenza artificiale multimodale

LookerStudio/Shutterstock

Il termine multimodale sta a indicare un tipo di IA che può essere utilizzata in modi e contesti diversi, con la possibilità di accedere a input differenti (da utilizzare ovviamente sia per l’addestramento che per l’interrogazione da parte degli utenti) proponendo quindi agli utenti risposte in varie forme, dai semplici contenuti testuali fino ad arrivare ai file multimediali, come video, audio o immagini.

Gli attuali chatbot, ad esempio, accettano input testuali e danno all’utente output sempre sotto forma di testo.

Un’AI multimodale, invece, è in grado di accettare e restituire all’utente più tipologie di informazioni, con la possibilità, ad esempio, di partire da una descrizione testuale per chiedere all’intelligenza artificiale di generare una foto o un video.

Un’AI Multimodale è in grado di lavorare su input diversi per restituire all’utente risposte e informazioni di varia natura che vanno dai semplici testi fino ad arrivare a file multimediali molto elaborati

In questo senso le potenzialità di tale tecnologia sono praticamente infinite e chi la utilizza non dovrà fare altro che immaginare un qualcosa, che verrà poi realizzato dal tool in questione nei modi e nelle forme definite dall’utente stesso.

Questo, chiaramente, può avere ripercussioni ancora maggiori sul settore con la possibilità di riorientare gli utilizzi di questa tecnologia verso altri scopi, come l’arte, ad esempio, il cinema, l’intrattenimento videoludico, la musica e molto altro ancora.

Ben diverso il discorso sull’effettiva creatività dell’AI e sul valore di ciò che crea ma, indubbiamente, si tratta di un cambiamento funzionale allo scopo e pronto a ripensare l’utilizzo finale di questi strumenti. 

Le potenzialità dell’AI multimodale

Intelligenza artificiale

SomYuZu/Shutterstock

L’intelligenza artificiale multimodale rappresenta la naturale evoluzione delle attuali tecnologie AIche da qualche anno a questa parte sono praticamente entrate a far parte della vita di tutti.

Essendo, però, una versione migliorata del “vecchio” modello tecnologico, è chiaro che le applicazioni pratiche sono molto più ampie e in grado di garantire un funzionamento ancora più efficiente.

Come già detto, partendo da un sistema del genere e da un “semplice” input testuale è possibile creare qualsiasi cosa, dai video alle foto, e tutto senza avere le minime competenze in materia di grafica digitale, basterà saper scrivere ciò di cui si ha bisogno con una frase semplice e di senso compiuto.

Gli sviluppi futuri dell’AI multimodale sono davvero interessanti e, già da oggi, mostrano chiaramente quella che sarà l’evoluzione di uno strumento pronto a stravolgere il mondo dell’industria e della tecnologia

Oltre a questo, le tecnologie multimodali potrebbero entrare molto presto a far parte delle funzioni base dei nostri smartphone, amplificando a dismisura le potenzialità degli assistenti virtuali che potrebbero essere in grado di sfruttare a 360° tutti i vari componenti del dispositivo (fotocamere, sensori ecc) per eseguire qualsiasi tipo di attività o di richiesta da parte degli utenti. 

Le applicazioni future, insomma, potrebbero essere enormi e potrebbero riguardare, naturalmente, tutti i settori produttivi dall’industria fino ad arrivare al settore medico, quello dell’intrattenimento e della produttività a tutti i livelli. 

Perciò, secondo molti esperti del settore, l’intelligenza artificiale multimodale potrebbe rappresentare il prossimo step nell’evoluzione di queste tecnologie e, vista la comprensione di un quantitativo così elevato di dati e input, arrivare finanche a conclusioni di senso compiuto per dare risposte coerenti ai più grandi problemi dell’universo.

Senza troppi giri di parole, insomma, una tecnologia del genere potrebbe essere quanto di più vicino all’emulazione del cervello umano e delle sue modalità di funzionamento e questo, naturalmente, potrebbe avere un impatto decisivo anche sull’evoluzione dell’uomo.

Principali AI multimodali sul mercato

Google Bard

rafapress/Shutterstock

Tra le principali intelligenze multimodali sul mercato c’è, naturalmente, Google Gemini uno dei prodotti più interessanti e più attesi di questo 2024, che è pronto a stravolgere l’utilizzo dei modelli AI in ogni contesto, dai sistemi industriali fino ad arrivare alle più modeste soluzioni da applicare ai futuri smartphone Android.

Al momento questa tecnologia è ancora nelle mani di tester e sviluppatori ma gli utenti possono provare una versione “rudimentale” accedendo ai servizi di Google Bard che pur essendo ancora in fase sperimentale sono già piuttosto efficienti.

Al fianco di Gemini, c’è ovviamente ChatGPT-4V (con la V che sta per Vision). La versione multimodale del prodotto di OpenAI è disponibile al momento solo per gli utenti ChatGPT Plus al costo di 20 dollari al mese.

Anche qui le potenzialità sono davvero molte, chiaramente ChatGPT è un prodotto che non ha bisogno di presentazioni e già nella versione chatbot è molto performante ed è considerata una delle tecnologie più rappresentative del mondo delle intelligenze artificiale.

Naturalmente questi non sono gli unici modelli di AI multimodale pronti ad arrivare sul mercato e sul web le indiscrezioni sugli strumenti del genere in arrivo sul mercato sono molte: come ad esempio il tool di Apple che dovrebbe caratterizzare i prossimi iPhone in uscita quest’anno e la nuova versione di iOS.

Insomma, si parla di un contesto in fortissima espansione che nel giro di qualche mese (un anno al massimo) potrebbe diventare la massima espressione delle potenzialità dell’intelligenza artificiale.

Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi

A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Fda
Prompt engineering
Immagine principale del blocco
Prompt engineering
Fda gratis svg
Come interrogare le intelligenze artificiali
Iscriviti al corso gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.