Whisper è il tool per il riconoscimento vocale e la trascrizione audio sviluppato da OpenAI. Una rete neurale capace di abilitare diverse operazioni speech to text: ad esempio la creazione di testo da audio o di testo da video, ma anche la traduzione da altre lingue in lingua inglese.
Whisper garantisce una percentuale di errore inferiore di circa il 50% rispetto ai suoi competitor e dispone di diversi modelli, che si possono adattare a computer più o meno performanti.
-
1. Cos’è e come funziona Whisper
olivia_Brown/Shutterstock
Whisper è una rete neurale, che abilita un sistema avanzato di riconoscimento vocale automatico. Ed è stato realizzato dal team di OpenAI: la società dietro la progettazione del sistema di artificiale generativa ChatGPT.
È stato addestrato quasi 700.000 ore di dati raccolti dal web. In questo modo il tool è in grado di riconoscere un qualsiasi messaggio vocale, ma non solo: è anche in grado di comprendere gli accenti e distinguere eventuali rumori di fondo dal linguaggio vero e proprio.
Whisper viene utilizzato nell’ambito delle cosiddette operazioni speech to text: ovvero tutte quelle azioni che partono da un input vocale e si traducono in un output scritto. Si pensi in tal senso a una classica trascrizione audio, ma anche alla possibilità di estrapolare automaticamente un testo da un video.
L’attività di trascrizione audio inizia con una suddivisione dei file in ingresso in blocchi da 30 secondi, che vengono poi convertiti in spettrogramma log-Mel. A questo punto intervengono un decodificatore e dei token speciali, che indirizzano i diversi modelli verso le relative attività: dall’identificazione della lingua alla trascrizione vera e propria.
OpenAI ha scelto di addestrare il tool puntando su un set di dati multilingue: basti pensare che oltre il 30% delle informazioni utilizzate non è in lingua inglese.
Questo presupposto permette a questo strumento di ampliare il suo range di funzionalità: può infatti trascrivere nella lingua originale dell’input, oppure può tradurre il messaggio in inglese.
Stando a OpenAI, tutti i modelli e tutto il codice con licenza open source utilizzati stanno venendo messi a disposizione della rete. L’obiettivo dichiarato è approfondire e velocizzare l’intero settore della ricerca sulle tecniche di elaborazione vocale.
-
2. Come utilizzare Whisper di OpenAI
LALAKA/Shutterstock
Whisper è uno strumento open source e può essere eseguito localmente su diversi sistemi operativi. La prima cosa da fare è visitare il repository dedicato, che contiene tutti i dati e le istruzioni del caso.
Per addestrare e testare i modelli è possibile utilizzare un’edizione di Python superiore alla 3.7 e un’edizione di PyTorch superiore alla 1.12. È possibile installare o aggiornare Whisper inserendo il comando che segue: pip install -U openai-whisper. Potrebbe inoltre essere necessario installare una libreria per l’elaborazione dell’audio, come ad esempio FFmpeg.
Esistono diversi modelli di Whisper a disposizione dell’utente, che si distinguono per peso e precisione del tool. Il modello Tiny prevede 39 M di parametri e richiede una VRAM da 1 GB. Mentre il modello Base prevede 74 M di parametri e richiede una VRAM da 1 GB.
Il modello Small prevede 244 M di parametri e richiede una VRAM da 2 GB. Mentre il modello Medium prevede 769 M di parametri e richiede una VRAM da 5 GB. Infine il modello Large prevede ben 1550 M di parametri e richiede una VRAM da 10 GB.
A prescindere dal prodotto selezionato, Whisper garantisce un livello di accuratezza decisamente superiore se paragonato a quello di programmi “rivali”. OpenAI sostiene infatti che il suo tool permette di ridurre la percentuale di errore di circa il 50% inferiore rispetto agli altri modelli linguistici.
Una volta impostato il modello di Whisper, è possibile passare alla fase di riconoscimento vocale, utilizzando delle API: interfacce di programmazione che regolano l’interscambio di dati tra applicazioni diverse.
L’utente non deve fare altro che far partire l’audio e poi Whisper si occuperà delle varie operazioni speech to text: elaborazione di testo da audio, elaborazione di testo da video o traduzione.
Facendo attenzione a fornire registrazioni audio chiare e pulite. In modo da aiutare il modello linguistico a realizzare una trascrizione audio il più fedele possibile all’originale.
-
3. Consigli utili per utilizzare Whisper al meglio
BestForBest/Shutterstock
Nei capoversi precedenti è stato spiegato come iniziare a utilizzare Whisper. E si è accennato a come il tool di OpenAI possa andare ben oltre il riconoscimento vocale e la trascrizione audio.
Per iniziare a utilizzare Whisper al meglio è sufficiente seguire una serie di accortezze. Ad esempio iniziando a utilizzare il parametro top_k, che permette di limitare il numero di parole dell’output, o magari sperimentando con il valore temperatura, che permette di regolare la casualità del testo.
Più in generale, Whisper può anche essere sfruttato come tool per fare brainstorming e generare contenuti inediti. In questo senso è molto importante continuare ad addestrare il modello: infatti più impara in merito a un tema specifico, più sarà in grado di generare risposte pertinenti.
Infine un ultimo suggerimento dedicato a tutti coloro che non dispongono di un computer ad alte prestazioni ma che vogliono comunque installare questo software.
Il tool speech to audio di OpenAI può essere utilizzato direttamente su browser, attraverso un software dedicato all’esecuzione di modelli open source. È il caso ad esempio di Replicate, che integra soluzioni diverse e acquisisce il tempo di calcolo su server.
Replicate prevede un sito web gratuito dedicato proprio a Whisper e gli utenti possono utilizzarlo per le loro operazioni di riconoscimento vocale e trascrizione audio.
La prima cosa da fare è caricare il file da trascrivere. Dopodiché non resta che selezionare uno dei modelli di Whisper disponibili, il formato prediletto per la trascrizione e un’eventuale richiesta di traduzione in lingua inglese.
Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi