Token nel contesto dei modelli di IA – Cosa sono i token?

In questo articolo spieghiamo cosa sono i token e come vengono calcolati. Inoltre, forniamo un esempio concreto e alcuni suggerimenti per utilizzare i token in modo efficiente.

Definizione dei token

I token sono un elemento centrale nell’elaborazione del testo nei modelli di apprendimento automatico come ChatGPT di OpenAI e costituiscono la base per comprendere e interpretare i dati testuali. I token rappresentano le unità più piccole che questi modelli possono elaborare.

Nella forma più semplice, un token può essere una parola, un segno di punteggiatura o uno spazio. Tuttavia, modelli più avanzati come ChatGPT estendono questo concetto e possono definire i token come parti di una parola o persino come combinazioni di più parole. Questo approccio è noto come tokenizzazione per sottoparole.

Come vengono calcolati i token

Durante l’elaborazione di un testo, questo viene prima suddiviso in una serie di token, in un processo chiamato tokenizzazione. Il modello utilizza quindi rappresentazioni numeriche di questi token per analizzare e prevedere il testo.

Un aspetto importante è il limite di token che un modello può elaborare. Ad esempio, in GPT-3.5 Turbo questo limite è di 4.096 token, mentre in GPT-4 è di 8.192 token. Questa limitazione vale sia per i testi in ingresso che per quelli in uscita ed è chiamata finestra di contesto.

Il numero di token disponibili in un modello come ChatGPT dipende non solo dai limiti tecnici del modello stesso, ma anche dalle impostazioni dell’applicazione o della piattaforma utilizzata.

Un esempio di token

Una frase come “ChatGPT è un modello linguistico di OpenAI” viene suddivisa in singoli token. Con una semplice tokenizzazione per parole, la frase potrebbe essere suddivisa come segue:

Esempio di token

Tuttavia, con la tokenizzazione per sottoparole, la stessa frase può essere suddivisa in un numero diverso di token, a seconda della logica di tokenizzazione del modello.

Confronto tra tokenizzazione per parole e sottoparole

Supponiamo di avere un testo con 1.000 parole. Con una tokenizzazione semplice per parole, avremmo anche 1.000 token. Tuttavia, con la tokenizzazione per sottoparole, il numero di token può variare.

Una parola come “configurazione”, ad esempio, può essere suddivisa in più token, come “Confi”, “gura”, “zione”. Allo stesso modo, anche un segno di punteggiatura o uno spazio può essere conteggiato come un token separato. Ciò significa che il numero totale di token può essere superiore al numero di parole nel testo.

Uso efficiente dei token

In generale, meno testo viene utilizzato sia nella richiesta che nella risposta, minore sarà il consumo di token. Questo è un aspetto fondamentale per massimizzare l’efficienza e ottimizzare l’utilizzo dei token.

Input efficiente: Cerca di formulare le tue domande in modo chiaro e conciso. Ripetizioni inutili, frasi molto lunghe o informazioni irrilevanti aumentano il consumo di token.

Richiedere risposte più brevi: In molti casi è possibile controllare la lunghezza delle risposte generate dal modello. Risposte più brevi consumano meno token.

Gestione dei messaggi precedenti: A seconda dell’applicazione, può essere utile attivare o disattivare la funzione di memoria delle conversazioni. Questa impostazione può essere modificata nelle impostazioni del sistema. È importante sapere che, quando è attiva, anche le domande e le risposte precedenti vengono conteggiate nel totale dei token.

Memoria attiva: Ad esempio, se utilizzi ChatGPT per riassumere testi e vuoi migliorare un primo risultato, la memoria può essere utile. Il modello può basarsi sulle informazioni precedenti e fornire una versione migliorata, senza dover reinserire il testo originale.

Memoria disattivata: Se invece utilizzi ChatGPT per creare contenuti indipendenti, come una serie di poesie non correlate, è meglio disattivare la memoria. In alternativa, puoi iniziare una nuova chat per ogni richiesta. In questo modo risparmi token, evitando che contenuti precedenti non rilevanti vengano considerati.


Posted

in

by

Tags: