login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Cosa sono e a cosa servono i token GPT

Ascolta l'articolo

Utilizzo e funzionamento dei token: l’unità base di GPT, che permette all’intelligenza artificiale generativa di comprendere pienamente il linguaggio naturale

ChatGPT Smartphone Diego Thomazini/Shutterstock

La comprensione del linguaggio naturale del GPT è molto meno “naturale” rispetto a quanto non si potrebbe immaginare. L’intelligenza artificiale generativa non si avvicina alle frasi o le parole partendo dal loro significato, come farebbe un essere umano.

Al contrario si basa su un modello previsionale che parte con un frazionamento dell’input in token: l’unità di base di GPT, corrispondente a pochi caratteri

La tokenizzazione del testo GPT è però soltanto il primo step del processo. Ogni token viene infatti dotato di un ID e di un valore, che permettono al modello di linguaggio GPT di portare avanti l’operazione di comprensione. 

Per comprendere meglio il funzionamento del token in GPT è sicuramente utile partire da una definizione più precisa del termine in questione. Anche perché proprio la parola token, al giorno d’oggi, si presta a interpretazioni anche molto diverse tra loro. 

Dopodiché è possibile entrare nel merito della generazione del testo di GPT: un’operazione strettamente legata al conteggio delle parole, il conteggio dei token e il loro utilizzo. 

Cosa significa la parola token nel GPT

ChatGPT Token

SomYuZu/Shutterstock

Il terminetoken” è ricco di significati in questo momento storico. Ad esempio in diversi ambiti il token è un dispositivo fisico utilizzato nell’ambito di operazioni di autenticazione a due fattori

Se si parla di finanza decentralizzata, i token sono innanzitutto gli indicatori univoci delle blockchain: rappresentazioni di oggetti digitali, o di quantità di valore digitale, che vengono utilizzati nelle transazioni

Inoltre il token è l’unità di base di GPT: il modello di rete neurale alla base di ChatGPT di OpenAI e di tante altre applicazioni di intelligenza artificiale generativa

Analizzare il ruolo e l’utilizzo dei token di GPT è il primo step per comprendere il funzionamento delle AI più avanzate. Di base, però, i token possono considerati semplici pezzi di parole

Le intelligenze artificiali generative danno l’impressione di comprendere il linguaggio parlato come gli esseri umani. Ma in realtà il modello di linguaggio GPT frammenta gli input in porzioni di lunghezza variabile, note appunto col nome di token

La comprensione del linguaggio naturale di GPT passa per la frammentazione delle parole in gruppi di caratteri noti come token

Un singolo token può essere composto da pochi caratteri e può addirittura comprendere degli spazi vuoti. I criteri di suddivisione dei token sono molteplici e variabili: ad esempio cambiano di lingua in lingua

Inoltre il conteggio dei token di GPT varia di modello in modello: il GPT-4 vanta una suddivisione delle parole in token molto più avanzato rispetto al GPT-3.5.

In conclusione, piuttosto che parlare di conteggio delle parole GPT, si dovrebbe parlare di conteggio token GPT: un processo anche noto col nome di tokenizzazione del testo GPT

Per destreggiarsi con la tokenizzazione e avvicinarsi alla comprensione del linguaggio naturale da parte di GPT è possibile utilizzare degli strumenti ad hoc. 

Tokenizer è il tool più efficace per visionare rapidamente come un testo naturale viene frammentato in un numero più o meno elevato di token. Tiktoken permette invece di tokenizzare testo naturale a livello di codice

Come funziona la comprensione del linguaggio naturale in GPT

ChatGPT Comprensione parole

Tama2u/Shutterstock

Come anticipato nei capoversi precedenti, i token sono l’unità di base del GPT: quantità variabili di caratteri, necessarie all’AI per analizzare gli input dell’utente e per fornire poi un output originale. 

La generazione di testo del GPT non è però frutto di una comprensione “umana”. Al contrario si tratta di un modello previsionale strettamente legato ai Large Language Models, che realizza la miglior risposta possibile basandosi su un set di dati composto da centinaia di miliardi di parametri diversi. 

Per capire meglio il funzionamento del modello di linguaggio, è possibile analizzare più da vicino la tokenizzazione del testo del GPT. A partire da un esempio concreto. 

Si immagini di scrivere una frase banale, ad esempio: “Mi piace il pane”. Il GPT inizierà col suddividerla in token, assegnando a ogni token un ID e un valore

La tokenizzazione, come già accennato in precedenza, non ha niente a che vedere col senso compiuto della frase o la parola: un token potrebbe infatti essere composto anche da pochi caratteri

Tutti i token hanno un codice identificativo e un valore, legato a un complesso calcolo delle probabilità ad opera del GPT

Il valore è invece legato alla probabilità e la frequenza del token individuato. E per attribuire questo valore il modello di linguaggio parte dal suo gigantesco dataset

È interessante osservare come due parole apparentemente identiche per l’essere umano, possano trasformarsi in token con valori molto diversi per il modello di linguaggio GPT. 

I fattori da tenere in considerazione sono molteplici: a partire dalla eventuale presenza di maiuscole, fino ad arrivare alla posizione del token all’interno dell’input. 

Ad esempio un token con carattere iniziale maiuscolo all’inizio di una frase, tende ad avere un valore più alto, corrispondente a una minore probabilità. Lo stesso token, senza maiuscole e posizionato al centro di una frase, tende ad avere un valore più basso, corrispondente a una maggiore probabilità. 

Come funziona il conteggio dei token in GPT

ChatGPT

1st footage/Shutterstock

La generazione del testo del GPT è una diretta conseguenza degli input acquisiti. E questi ultimi hanno dei limiti legati non tanto alle parole, quanto ai token

Anche in questo caso il numero massimo di token che può contenere una richiesta varia in base a diversi fattori: a partire dalla lingua di input, fino ad arrivare alla dimensione del vocabolario del GPT in uso. 

In alcuni casi il limite potrebbe venire esplicitato in “gettoni”: un’altra unità di base del GPT, composta da un numero variabile di parole (e, di conseguenza, di token). 

Le diverseAPI di ChatGPT permettono di alzare il limite di token o gettoni in base al prezzo. Ma è sempre possibile aggirare questo genere di limitazione realizzando input in maniera più accurata: ad esempio frammentando un testo esteso in porzioni più piccole. 

Per saperne di più: ChatGPT, cos'è, come funziona, a cosa serve, come usarla gratis

A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Whatsapp
Segui le ultime notizie sul nostro canale Whatsapp
Immagine principale del blocco
Segui le ultime notizie sul nostro canale Whatsapp
Fda gratis svg
Iscriviti al canale gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.