I Large Language Model come ChatGPT spiegati facile facile

La magia di ChatGPT

ChatGPT è, ormai da qualche mese, uno strumento che è entrato a far parte delle nostre vite, più o meno intensamente e che, spesso, sembra qualcosa di magico.

Arthur C. Clarke, in una sua famosa "legge", affermava:

Qualunque tecnologia sufficientemente avanzata è indistinguibile dalla magia

Ma è davvero magia?

Capire come funzionano i modelli come ChatGPT o, almeno, quali siano i concetti chiave, ci permette di orientarci e utilizzare al meglio questi straordinari strumenti, frutto di una branca dell'Intelligenza Artificiale, il cui scopo è proprio quello di simulare prodotti della nostra intelligenza, come ad esempio il linguaggio.

Language Model

Partiamo da un acronimo che molto spesso viene nominato, ovvero LLM, che sta per Large Language Model.

Consideriamo innanzitutto le ultime due parole, Language Model.

Un modello è una rappresentazione semplificata di un concetto, un fenomeno o un sistema complesso: pensiamo ad esempio a quelli meteorologici, che servono per fare le previsioni del tempo.

In questo caso parliamo di linguaggio, che è anch'esso un sistema complesso e, quindi, può essere modellato.

Il concetto interessante è che, scegliendo un approccio basato su reti neurali per farlo, il modello stesso non è impostato con regole, formule o qualcosa di predefinito ma viene costruito sulla base dei dati che gli vengono forniti, durante la fase cosiddetta di "addestramento", in cui viene messa a disposizione una enorme quantità di testo, opportunamente trasformato in formato numerico e contestualizzato, grazie al quale il modello "impara" relazioni tra parole, pattern e contesti.

Armato di questa conoscenza, un LLM è poi in grado di generare altro testo, rispondendo ad esempio ad una domanda.

Ma usiamo una analogia per semplificare al massimo: immaginate un LLM come una complessa bilancia con tantissimi bracci in cui mettere dei pesi. Ogni braccio ha un peso collegato ad esso, che indica l'importanza di un certo "fatto" per il modello.

Durante l'addestramento, il LLM cerca di regolare i pesi dei bracci per ottenere un bilanciamento preciso, esaminando i dati di testo e cercando di trovare i pattern e le relazioni tra le parole e le frasi, regolando i pesi dei bracci in modo che la bilancia sia in equilibrio ad ogni nuovo dato che riceve.

Finito l'addestramento, quando poi forniamo una domanda al LLM, esso cerca di trovare il bilanciamento giusto tra i bracci che corrispondono all'input fornito, utilizzando, nel suo "bagaglio" di pesi appresi durante l'addestramento, quelli corrispondenti a ciò che abbiamo chiesto.

Quindi la domanda “qual è la capitale d’Italia” avrà come peso più rilevante quello associato a “Roma”, perché questo è quello che ha imparato a “bilanciare”, rispetto alle parole “capitale” e “Italia”.

Ovviamente tutto questi concetti sono interpretati come relazioni numeriche perché non c'è nessuna comprensione di quello che sta dietro ai termini stessi, se non un rapporto statistico di "vicinanza" di una parola con un'altra.

Può però succedere che il modello prenda delle cantonate, le cosiddette "allucinazioni", nelle quali genera risposte non pertinenti, frutto di una errata configurazione o di dati forniti non corretti, che, una volta individuate, possono essere risolte con un addestramento mirato.

Perché Large?

Affinché il tutto funzioni, questi modelli devono essere anche “Large”, ovvero essere addestrati non solo con tanti dati, ma avere anche tanti bracci (chiamiamoli "parametri") da poter usare per catturare tutte le sfumature del linguaggio.

Se ho una bilancia con tre bracci, è difficile che possa trovare una configurazione per “catturare” sia l’Amleto di Shakespeare che un testo di Eminem, ma se i bracci sono miliardi, la situazione cambia.

ChatGPT nella versione 3.5 ha ad esempio 175 miliardi di parametri, la versione 4 si parla che ne abbia 1 trilione, quindi numeri giganteschi e, continuando con la metafora della bilancia, ci sono state evoluzioni anche sul come progettarla, per renderla più "sensibile" ad esempio alla struttura della frase e a quello che è importante in un certo contesto.

Oltre a ChatGPT, Bard e gli altri LLM "chiusi", che solo poche realtà possono permettersi di addestrare ed erogare, date la potenza computazionale necessaria, stanno però nascendo alternative “open”, con modelli molto più piccoli (da "solo" 7 miliardi in su) che se non raggiungono, almeno non ancora, le performance dei modelli più grandi, possono però essere utilizzati con risorse anche casalinghe.

Questo perché i ricercatori stanno trovando modi per ridurli senza perdere in prestazioni, togliendo quello che non serve, un po’ come si fa con le immagini compresse.

Questo apre una serie di nuovi scenari di utilizzo che sarà interessante esplorare, per rendere questi strumenti e il loro addestramento alla portata di tutti.

Conclusioni

In equilibrio su tanti bracci sospeso,

La bilancia oscilla nel tempo indefeso.

Passato e futuro in un danzar costante,

Nelle mie parole, il sapere si fa eco,

La bilancia del conoscere, un mondo che evoco.

Tra saperi antichi e nuovi orizzonti,

La bilancia si muove, svelando segreti pronti.

Nell'uso umano, il potere risiede,

La bilancia si inclina, il destino si compiace.

Ma con saggezza e discernimento a guidare,

L'equilibrio si mantiene, l'uomo può trionfare.

Non è magia, però...

---------
Sono un Coach specializzato e IT Mentor, con 25 anni di esperienza nel settore IT. Se vuoi migliorare la parte Tech della tua Azienda o migliorare te stesso/a, sono qui per supportarti. Scopriamo insieme come!