Large Language Model

Cos'è un Large Language Model?

Un Large Language Model (LLM) è un modello di intelligenza artificiale avanzato, specializzato nella comprensione e nella generazione del linguaggio naturale.

Questi modelli sono addestrati su vasti insiemi di dati testuali per apprendere come le parole e le frasi sono comunemente usate nelle conversazioni umane.

In pratica, possono rispondere a domande, scrivere testi, tradurre lingue e persino creare contenuti originali, ecc.

Il loro obiettivo è di simulare il modo in cui gli umani usano il linguaggio, rendendo più semplice, intuitiva e naturale l'interazione tra una persona e la macchina. In altre parole... più conversazionale.

Tipi di large language model

Posso classificare i Large Language Models in diversi modi, basandomi su vari criteri.

  • Dimensione
    La dimensione è determinata dal numero dei parametri utilizzati per addestrare il modello. Alcuni modelli sono più grandi, con miliardi di parametri, mentre altri sono più piccoli. La dimensione può influenzare la loro capacità di apprendimento e di generazione del linguaggio.
  • Specializzazione
    Alcuni modelli sono generalisti, adatti a una vasta gamma di compiti linguistici, mentre altri sono specializzati per specifici compiti, come la traduzione automatica o il riconoscimento vocale.
  • Lingua
    Alcuni modelli sono addestrati specificamente per lavorare in una lingua, mentre altri sono multilingue. In genere, quasi tutti sono addestrati per lavorare in lingua inglese. Tuttavia, di recente si stanno diffondendo modelli LLM in grado di conversare anche in altre lingue come il tedesco, il francese, l'italiano, ecc.
  • Metodo di addestramento
    Esistono modelli addestrati con diversi approcci, come l'apprendimento supervisionato, semi-supervisionato o non supervisionato. Per un approfondimento su queste tecniche di machine learning rimando ad altri miei appunti presenti in questo sito. Sarebbe troppo lungo parlarne qui.
  • Apertura
    Alcuni modelli sono open-source e accessibili al pubblico, mentre altri sono software proprietari e utilizzati esclusivamente da specifiche organizzazioni. Esistono anche situazione ibride. L'esempio tipico è OpenAI, nata come organizzazione no-profit che di recente si è aperta agli aspetti più commerciali.

Questi sono solo alcuni criteri di classificazione degli LLM che mi sono venuti in mente.

La storia dei Large Language Models

La storia dei Large Language Models (LLM) riflette l'evoluzione dell'intelligenza artificiale e del linguaggio naturale.

Tutto iniziò negli anni '50 e '60, quando vennero compiuti i primi esperimenti nell'elaborazione del linguaggio naturale (NLP) ma erano limitati dalla potenza di calcolo e dai dati disponibili. Basti pensare che i primi elaboratori elettronici erano nati da pochi anni.

Negli anni '80 e '90 si è verificata una rapida evoluzione, grazie all'incremento della potenza computazionale e l'introduzione di algoritmi come le reti neurali. Tuttavia, questi modelli erano ancora relativamente piccoli. Sufficienti per addestrare una macchina a giocare a scacchi ...ma eravamo ancora lontani dal superare il Test di Turing.

Cos'è il test di Turing? E' un test pensato da Alan Turing negli anni '50 per valutare se una macchina è intelligente oppure no. In parole povere, se un utente non si accorge di parlare con una macchina, il test di Turing è superato. Un risultato che è stato ottenuto solo in questi ultimi anni ma che negli anni '90 era ancora fantascienza.

All'inizio del XXI secolo si inizia a sperimentare con modelli più grandi e tecniche come l'apprendimento non supervisionato. Nascono modelli come Word2Vec, che catturano relazioni semantiche tra le parole. Vengono ripresi e ampliati gli studi delle reti neurali e del deep learning.

Tuttavia, per almeno 20 anni non accadrà nulla di sensazionale. A parte qualche passo in avanti nelle simulazioni.

E' negli anni 2018-2019 che si compie un rapido passo in avanti con l'introduzione di modelli come GPT di OpenAI, basati sull'architettura transformer. Questi modelli possono elaborare una grande quantità di testo in modo più efficace, catturando contesti complessi.

Si assiste così all'ascesa di modelli sempre più grandi come GPT-3, GPT-4 di OpenAI e BERT di Google e molti altri ancora con capacità sorprendenti di generazione del testo e comprensione.

Nel 2023 questi modelli stanno iniziando ad essere applicati in molti campi e si parla già di rivoluzione industriale.

Quale sarà l'evoluzione futura?

Non è facile capire come evolverà la situazione ma posso provare a fare qualche previsione. Sto scrivendo alla fine del 2023.

Secondo me, in breve tempo assisteremo a una rapida diffusione delle interfacce conversazionali degli LLM su tutti i dispositivi elettronici.

Molto probabilmente vedremo nascere LLM specializzati per settori specifici, come medicina, legge, o istruzione, che forniranno assistenza nelle rispettive aree in modo migliore rispetto agli LLM generalisti.

In pratica, nasceranno degli LLM specializzati e fortemente competenti nel loro ambito.

Si verificherà anche un'integrazione con altre forme di intelligenza artificiale, come i sistemi di visione artificiale, potrebbe portare a applicazioni più ampie e sofisticate.

Ad esempio, già di recente ci sono stati tentativi di far usare gli LLM agli ipovedenti tramite l'interfaccia vocale degli smartphone. La persona fotografa ciò che ha davanti, il modello LLM elabora l'immagine e descrive l'ambiente tramite un normale TTS (text to speak). Ad esempio, c'è una poltrona a destra, una finestra davanti, ecc. E' sorprendentemente utile e oggi è accessibile con gli strumenti che usiamo tutti i giorni. Uno smartphone e una connessione a internet.

E' invece più difficile fare previsioni a lungo termine. Tra 5-10 anni.

Sicuramente i modelli LLS futuri saranno in grado di comprendere meglio il contesto e le sfumature del linguaggio, migliorando la qualità e la precisione delle risposte. Sarà difficile distinguerli da una persona. Probabilmente, la robotica e l'AI convergeranno creando soluzioni ibride.

Sarà particolarmente interessante vedere come procederanno gli studi accademici sugli LLM. Gli attuali LLM hanno prodotto effetti che nemmeno i progettisti si immaginavano.

C'è anche chi avanza l'ipotesi che dalla conoscenza degli LLM possa scoccare quella scintilla che chiamiamo intelligenza.

E così via.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Libri di approfondimento