Deep learning: le radici

Negli ultimi anni sono state sviluppate diverse metodologie e algoritmi che fanno parte del deep learning. Ma queste tecniche sono effettivamente così moderne? Analizziamo un pò di storia, partendo dal medioevo e arrivando ai nostri giorni, per capire le radici del deep learning e dell'intelligenza artificiale.

Tempo di lettura: 4 minuti

Ogni giorno escono nuovi algoritmi e modelli di deep learning per rispondere a nuovi e vecchi problemi. Negli articoli Deep learning: Apprendimento supervisionato [parte 1], Deep learning: Apprendimento supervisionato [parte 2] etc, abbiamo esaminato un piccolo sottoinsieme di problemi che il deep learning può affrontare. Le tecniche a nostra disposizione possono essere molteplici e più o meno adatte ai nostri problemi. Sta a noi capire quale metodologia utilizzare nel contesto specifico. Ma tutte queste tecniche sono state sviluppate solo negli ultimi anni? Molte che abbiamo isto effettivamente sì, ma le loro radici arrivano da molto più lontano. In questo articolo studieremo un po’ di storia dell’analisi dei dati che è alla base delle tecniche che usiamo oggi.

Dal Medioevo al XIX secolo

Il desiderio di analizzare i dati e di prevedere i risultati futuri è sempre stato presente nell’uomo ed è alla base di gran parte delle scienze naturali e della matematica. Due esempi sono la distribuzione di Bernoulli, che prende il nome da Jacob Bernoulli (1655-1705), e la distribuzione gaussiana scoperta da Carl Friedrich Gauss (1777-1855). Gauss inventò, ad esempio, l’algoritmo dei minimi quadrati medi, che viene utilizzato ancora oggi per una moltitudine di problemi, dai calcoli assicurativi alla diagnostica medica. Tali strumenti hanno migliorato l’approccio sperimentale nelle scienze naturali: ad esempio, la legge di Ohm che mette in relazione corrente e tensione in un resistore è perfettamente descritta da un modello lineare.

Già nel Medioevo i matematici avevano una spiccata intuizione delle stime. Ad esempio, il libro di geometria di Jacob Köbel (1460-1533) illustra la media della lunghezza dei piedi di 16 uomini adulti per stimare la lunghezza tipica dei piedi nella popolazione.

Ciò che è riportato nell’illustrazione è l’esperimento che venne fatto da Köbel. All’uscita di una chiesa, fu chiesto ad un gruppo di 16 uomini adulti di mettersi in fila e di farsi misurare i piedi. La somma di queste misure fu poi divisa per 16 per ottenere una stima di quello che oggi viene chiamato piede. Questo “algoritmo” fu in seguito migliorato per gestire i piedi deformi: i due uomini con i piedi più corti e più lunghi furono mandati via, facendo la media solo con i rimanenti. Questo è uno dei primi esempi di stima della media troncata.

Il XX secolo

La statistica è decollata con la disponibilità e la collezione di dati. Uno dei suoi pionieri, Ronald Fisher (1890-1962), ha contribuito in modo significativo alla sua teoria e alle sue applicazioni in genetica. Molti dei suoi algoritmi (come l’analisi discriminante lineare) e concetti (come la matrice di informazione di Fisher) occupano tuttora un posto di rilievo nelle fondamenta della statistica moderna. Anche le sue risorse di dati hanno avuto un impatto duraturo. Il dataset Iris che Fisher pubblicò nel 1936 è ancora oggi utilizzato per dimostrare gli algoritmi di apprendimento automatico. Fisher era anche un sostenitore dell’eugenetica, il che dovrebbe ricordarci che l’uso moralmente discutibile della scienza dei dati ha una storia altrettanto lunga e duratura del suo uso produttivo nell’industria e nelle scienze naturali.

Altre influenze per l’apprendimento automatico provengono dalla teoria dell’informazione di Claude Shannon (1916-2001) e dalla teoria della computazione proposta da Alan Turing (1912-1954). Turing pose la domanda “le macchine possono pensare?” nel suo famoso articolo Computing Machinery and Intelligence (Turing, 1950). Descrivendo quello che oggi è noto come test di Turing, propose che una macchina può essere considerata intelligente se è difficile per un valutatore umano distinguere le risposte di una macchina da quelle di un essere umano, sulla base di interazioni puramente testuali.

Ulteriori influenze sono arrivate dalle neuroscienze e dalla psicologia. Dopo tutto, gli esseri umani mostrano chiaramente un comportamento intelligente. Molti studiosi si sono chiesti se fosse possibile spiegare ed eventualmente decodificare questa capacità. Uno dei primi algoritmi di ispirazione biologica è stato formulato da Donald Hebb (1904-1985). Nel suo libro rivoluzionario The Organization of Behavior (Hebb, 1949), ha affermato che i neuroni apprendono attraverso un rinforzo positivo. Questo principio divenne noto come regola di apprendimento Hebbiano. Queste idee hanno ispirato lavori successivi, come l’algoritmo di apprendimento perceptron di Rosenblatt, e hanno gettato le basi di molti algoritmi di discesa stocastica del gradiente che oggi sono alla base dell’apprendimento profondo: rinforzare il comportamento desiderabile e diminuire quello indesiderabile per ottenere buone impostazioni dei parametri in una rete neurale.

L’ispirazione biologica è ciò che ha dato il nome alle reti neurali. Per oltre un secolo (a partire dai modelli di Alexander Bain, 1873, e James Sherrington, 1890), i ricercatori hanno cercato di assemblare circuiti computazionali che assomigliassero a reti di neuroni interagenti. Nel corso del tempo, l’interpretazione della biologia è diventata meno letterale, ma il nome è rimasto. Alla base ci sono alcuni principi chiave che oggi si ritrovano nella maggior parte delle reti:

L’alternanza di unità di elaborazione lineari e non lineari, spesso denominate strati.
L’uso della regola della catena (nota anche come backpropagation) per regolare i parametri dell’intera rete in una sola volta.

Dopo i rapidi progressi iniziali, la ricerca sulle reti neurali ha subito una battuta d’arresto dal 1995 al 2005 circa. Ciò è dovuto principalmente a due ragioni. In primo luogo, l’addestramento di una rete è molto costoso dal punto di vista computazionale. Mentre la memoria ad accesso casuale era abbondante alla fine del secolo scorso, la potenza di calcolo era scarsa. In secondo luogo, i set di dati erano relativamente piccoli. In effetti, il dataset Iris di Fisher del 1936 era ancora uno strumento popolare per testare l’efficacia degli algoritmi. Il dataset MNIST, con le sue 60.000 cifre scritte a mano, era considerato enorme.

Data la scarsità di dati e di calcolo, strumenti statistici forti come i metodi kernel, gli alberi decisionali e i modelli grafici si sono dimostrati empiricamente superiori in molte applicazioni. Inoltre, a differenza delle reti neurali, non richiedevano settimane di addestramento e fornivano risultati prevedibili con forti garanzie teoriche.

More To Explore

Database

Apache Kafka Parte 1: stream processing e perché cambia tutto

Kafka non è un semplice message broker — è il sistema nervoso distribuito di Netflix, LinkedIn e Uber. Gestisce milioni di eventi al secondo senza perderne uno, in ordine garantito per partizione. Questa prima puntata spiega i concetti fondamentali (topic, partizioni, offset, consumer group) con un caso d’uso reale: le 50 stazioni ARPA Piemonte del progetto Smart City del Politecnico di Torino.

Alessandro Fiori 6 Luglio 2026

Sviluppo

Supabase: il backend open source per le tue app vibe-coded

Lovable e Bolt costruiscono il frontend in minuti. Ma dove vivono i dati degli utenti? Come funziona il login? Chi può vedere cosa? Supabase risponde a tutte queste domande: PostgreSQL managed, autenticazione pronta all’uso, storage e Row Level Security — tutto gratuito fino a un certo volume, tutto integrabile con un click dai principali tool di vibe coding.

Alessandro Fiori 29 Giugno 2026

Una risposta

Pingback: Deep learning: gli sviluppi del XXI secolo - Flowygo