La storia del deep learning

Il termine deep learning ( DL ) è stato coniato di recente, nei primi anni del terzo millennio, ma lo studio dell'apprendimento profondo risale a molto più lontano nel tempo. La sua storia è suddivisa in tre fasi: cibernetica, connettivismo e deep learning moderno.

La fase della cibernetica ( '50-60 )
La fase del connessionismo ( '80-90 )
Il deep learning ( 2006-oggi )

La fase della cibernetica ( '50-60 )

I primi studi di deep learning sono realizzati negli anni '40 con la cibernetica.

I primi algoritmi di DL sono integrati in modelli neurobiologici di apprendimento ispirati al cervello degli esseri viventi ( es. le reti neurali artificiali ).

Nota. In gran parte, si tratta di semplici modelli matematici lineari, sviluppati per capire le funzioni cerebrali e non come modelli previsionali.

In questi primi anni sono importanti i contributi di McCulloch e Pitts (1943 ), Hebb (1949), Rosenblatt (1958) sul neurone artificiale.

In particolar modo l'algoritmo Perceptron di Rosenblatt e l'algoritmo Adaline di Widroff-Hoff.

il modello di neurone MCP

Nota. Perceptron è il primo algoritmo a usare il concetto di neurone artificiale. Poi ripreso da Adaline con un algoritmo a discesa del gradiente stocastico per adattare i pesi con una funzione continua. Questi modelli lineari diventano un punto di riferimento per tutti i modelli di apprendimento in profondità.

Tuttavia, la ricerca si blocca nel 1969 quando i modelli lineari, come il Perceptron, sono duramente criticati da Marvin Minsky e Seymour Papert.

Negli anni successivi l'apprendimento profondo conosce un periodo di abbandono.

La fase del connessionismo ( '80-90 )

L'interesse per il DL rinasce negli anni '80 e '90 con il connessionismo, un campo di studio della scienza cognitiva.

Cos'è la scienza cognitiva? La scienza cognitiva è un approccio multidisciplinare che cerca di capire come funziona il cervello umano tramite i modelli computazionali e il ragionamento simbolico.

Secondo i connessionisti, un grande numero di unità computazionali semplici, collegate tra loro in rete, sono alla base del comportamento intelligente.

Un altro contributo dei connessionisti è la retropropagazione delle reti neurali profonde.

Nota. In quest'ambito meritano d'essere citati gli studi sulle reti neurali con retropropagazione ( back-propagation neural network ) con più strati nascosti di Rumelhart ( 1986 ).

Negli anni '90 sono sviluppate anche le prime reti LSTM ( Long Short Term Memory ) da Hochreiter, Bengio e Schmidhuber.

Purtroppo, la potenza di calcolo dei computer dell'epoca non è ancora sufficiente a esplorare tutte le potenzialità di sviluppo.

I limiti hardware dell'epoca causano una nuova fase di disinteresse e disinvestimento per le reti neurali.

Nota. In questi anni altri campi di indagine conquistano l'interesse dei ricercatori. In particolar modo, le macchine kernel e i modelli statistici bayesiani, perché all'epoca sembrano più promettenti nella simulazione del cervello.

Il deep learning ( 2006-oggi )

L'attenzione sul deep learning torna negli anni duemila per alcuni motivi:

Hardware più potente. I sistemi informativi raggiungono performance sufficientemente elevate a bassi costi. Le reti neurali sono diventate progressivamente sempre più grandi, crescendo di circa 2.4 anni, e sempre più veloci grazie all'innovazione tecnologica dei computer ( es. GPU, multiprocessori, ecc. ).
Nota. La grandezza della rete neurale influisce sul livello di accuratezza. A parità di condizioni, una rete con più neuroni è più intelligente. Grazie alla maggiore grandezza le reti neurali di oggi sono in grado di risolvere problemi impensabili per un computer di 20 o 30 anni fa.
Big Data. Molti dati cominciano a essere disponibili sotto forma di dataset. Si comincia così ad elaborarli con gli stessi algoritmi DL degli anni '80, quelli che in precedenza erano stati usati soltanto sui problemi giocattolo.
Nota. A beneficiare dei big data sono soprattutto gli algoritmi di apprendimento non supervisionato mentre gli algoritmi di apprendimento supervisionato migliorano in efficienza.
Algoritmi DL più evoluti. Nel corso degli anni duemila sono migliorati anche gli algoritmi di deep learning, grazie a una visione più ingegneristica.

In particolar modo, l'interesse si riaccende nel 2006 con il modello delle deep belief network di Geoffrey Hinton.

Hinton dimostra come una rete neurale artificiale potesse raggiungere obiettivi complessi in modo efficiente.

Nota. Oltre a Hinton meritano d'essere citati anche gli studi Bengio ( 2007 ) e Ranzato ( 2007 ), di Nair, Glorot e Jarrett.

In questi anni viene finalmente coniato il termine deep learning, ossia apprendimento approfondito ( o profondo ).

Dove l'aggettivo "profondo" deriva dalla maggiore profondità della rete neurale.

la differenza tra neural network semplice e multistrato ( deep network )

Questi nuovi modelli di apprendimento sono sviluppati su reti neurali multistrato con più livelli nascosti ( hidden layers ).

Si basano su un modello di neurone detto unità lineare semplificata ( rectified linear unit), una semplificazione del modello Cognitron di Fukushima del 1975.

Tuttavia, non sono più ispirati ai modelli neurobiologici e alle neuroscienze come i precedenti.

Perché si riduce l'interesse per le neuroscienze? L'interesse per le neuroscienze si riduce a causa delle scarse informazioni sul funzionamento del cervello umano. E' difficile costruire un modello computazionale prendendo come riferimento qualcosa di cui si conosce poco o nulla. Oggi lo studio del funzionamento del cervello biologico viene portato avanti dalla neuroscienza computazionale, un campo di studio distinto e separato dal deep learning.

Gli attuali modelli di deep learning sono molto più vicini all'ingegneria informatica che alle neuroscienze.

Sono sviluppati usando fondamenti matematici come l'algebra lineare, la teoria delle probabilità e dell'informazione.

Pertanto, oggi è errato considerare il deep learning come un tentativo di simulare il cervello umano.

La storia del deep learning è ancora oggi in corso e l'evoluzione futura è difficilmente prevedibile.

Aggiornerò questa pagina man mano che ci saranno passi in avanti rilevanti.

E così via.