Ogni giorno escono nuovi algoritmi e modelli di deep learning per rispondere a nuovi e vecchi problemi. Negli articoli Deep learning: Apprendimento supervisionato [parte 1], Deep learning: Apprendimento supervisionato [parte 2] etc, abbiamo esaminato un piccolo sottoinsieme di problemi che il deep learning può affrontare. Le tecniche a nostra disposizione possono essere molteplici e più o meno adatte ai nostri problemi. Sta a noi capire quale metodologia utilizzare nel contesto specifico. Ma tutte queste tecniche sono state sviluppate solo negli ultimi anni? Molte che abbiamo isto effettivamente sì, ma le loro radici arrivano da molto più lontano. In questo articolo studieremo un po’ di storia dell’analisi dei dati che è alla base delle tecniche che usiamo oggi.
Dal Medioevo al XIX secolo
Il desiderio di analizzare i dati e di prevedere i risultati futuri è sempre stato presente nell’uomo ed è alla base di gran parte delle scienze naturali e della matematica. Due esempi sono la distribuzione di Bernoulli, che prende il nome da Jacob Bernoulli (1655-1705), e la distribuzione gaussiana scoperta da Carl Friedrich Gauss (1777-1855). Gauss inventò, ad esempio, l’algoritmo dei minimi quadrati medi, che viene utilizzato ancora oggi per una moltitudine di problemi, dai calcoli assicurativi alla diagnostica medica. Tali strumenti hanno migliorato l’approccio sperimentale nelle scienze naturali: ad esempio, la legge di Ohm che mette in relazione corrente e tensione in un resistore è perfettamente descritta da un modello lineare.
Già nel Medioevo i matematici avevano una spiccata intuizione delle stime. Ad esempio, il libro di geometria di Jacob Köbel (1460-1533) illustra la media della lunghezza dei piedi di 16 uomini adulti per stimare la lunghezza tipica dei piedi nella popolazione.
Ciò che è riportato nell’illustrazione è l’esperimento che venne fatto da Köbel. All’uscita di una chiesa, fu chiesto ad un gruppo di 16 uomini adulti di mettersi in fila e di farsi misurare i piedi. La somma di queste misure fu poi divisa per 16 per ottenere una stima di quello che oggi viene chiamato piede. Questo “algoritmo” fu in seguito migliorato per gestire i piedi deformi: i due uomini con i piedi più corti e più lunghi furono mandati via, facendo la media solo con i rimanenti. Questo è uno dei primi esempi di stima della media troncata.
Il XX secolo
La statistica è decollata con la disponibilità e la collezione di dati. Uno dei suoi pionieri, Ronald Fisher (1890-1962), ha contribuito in modo significativo alla sua teoria e alle sue applicazioni in genetica. Molti dei suoi algoritmi (come l’analisi discriminante lineare) e concetti (come la matrice di informazione di Fisher) occupano tuttora un posto di rilievo nelle fondamenta della statistica moderna. Anche le sue risorse di dati hanno avuto un impatto duraturo. Il dataset Iris che Fisher pubblicò nel 1936 è ancora oggi utilizzato per dimostrare gli algoritmi di apprendimento automatico. Fisher era anche un sostenitore dell’eugenetica, il che dovrebbe ricordarci che l’uso moralmente discutibile della scienza dei dati ha una storia altrettanto lunga e duratura del suo uso produttivo nell’industria e nelle scienze naturali.
Altre influenze per l’apprendimento automatico provengono dalla teoria dell’informazione di Claude Shannon (1916-2001) e dalla teoria della computazione proposta da Alan Turing (1912-1954). Turing pose la domanda “le macchine possono pensare?” nel suo famoso articolo Computing Machinery and Intelligence (Turing, 1950). Descrivendo quello che oggi è noto come test di Turing, propose che una macchina può essere considerata intelligente se è difficile per un valutatore umano distinguere le risposte di una macchina da quelle di un essere umano, sulla base di interazioni puramente testuali.
Ulteriori influenze sono arrivate dalle neuroscienze e dalla psicologia. Dopo tutto, gli esseri umani mostrano chiaramente un comportamento intelligente. Molti studiosi si sono chiesti se fosse possibile spiegare ed eventualmente decodificare questa capacità. Uno dei primi algoritmi di ispirazione biologica è stato formulato da Donald Hebb (1904-1985). Nel suo libro rivoluzionario The Organization of Behavior (Hebb, 1949), ha affermato che i neuroni apprendono attraverso un rinforzo positivo. Questo principio divenne noto come regola di apprendimento Hebbiano. Queste idee hanno ispirato lavori successivi, come l’algoritmo di apprendimento perceptron di Rosenblatt, e hanno gettato le basi di molti algoritmi di discesa stocastica del gradiente che oggi sono alla base dell’apprendimento profondo: rinforzare il comportamento desiderabile e diminuire quello indesiderabile per ottenere buone impostazioni dei parametri in una rete neurale.
L’ispirazione biologica è ciò che ha dato il nome alle reti neurali. Per oltre un secolo (a partire dai modelli di Alexander Bain, 1873, e James Sherrington, 1890), i ricercatori hanno cercato di assemblare circuiti computazionali che assomigliassero a reti di neuroni interagenti. Nel corso del tempo, l’interpretazione della biologia è diventata meno letterale, ma il nome è rimasto. Alla base ci sono alcuni principi chiave che oggi si ritrovano nella maggior parte delle reti:
- L’alternanza di unità di elaborazione lineari e non lineari, spesso denominate strati.
- L’uso della regola della catena (nota anche come backpropagation) per regolare i parametri dell’intera rete in una sola volta.
Dopo i rapidi progressi iniziali, la ricerca sulle reti neurali ha subito una battuta d’arresto dal 1995 al 2005 circa. Ciò è dovuto principalmente a due ragioni. In primo luogo, l’addestramento di una rete è molto costoso dal punto di vista computazionale. Mentre la memoria ad accesso casuale era abbondante alla fine del secolo scorso, la potenza di calcolo era scarsa. In secondo luogo, i set di dati erano relativamente piccoli. In effetti, il dataset Iris di Fisher del 1936 era ancora uno strumento popolare per testare l’efficacia degli algoritmi. Il dataset MNIST, con le sue 60.000 cifre scritte a mano, era considerato enorme.
Data la scarsità di dati e di calcolo, strumenti statistici forti come i metodi kernel, gli alberi decisionali e i modelli grafici si sono dimostrati empiricamente superiori in molte applicazioni. Inoltre, a differenza delle reti neurali, non richiedevano settimane di addestramento e fornivano risultati prevedibili con forti garanzie teoriche.
Una risposta