L’AI non legge più solo testo. Claude analizza PDF di contratti in 30 secondi. GPT-4 Vision estrae dati strutturati da screenshot e grafici fotografati. Gemini 1.5 Pro naviga documenti da mille pagine citando i passaggi rilevanti. Questa guida mostra come funzionano i principali tool di AI multimodale, con casi d’uso business concreti e screenshot reali. Settima puntata del percorso Stack Digitale 2026.
Per capire cosa cambia con l’AI multimodale, basta pensare a una settimana di lavoro normale. Quanti PDF hai aperto per trovare una singola clausola? Quante volte hai riscritto a mano i dati di una tabella fotografata per portarli in un foglio di calcolo? Quante ore hai impiegato a riassumere documenti tecnici prima di una riunione?
Tutte queste attività hanno una cosa in comune: il collo di bottiglia non è l’analisi, è l’ingestion — portare il documento in un formato che il tuo cervello o un tool possa elaborare. L’AI multimodale elimina quel collo di bottiglia. Carichi direttamente il PDF, l’immagine, lo screenshot. L’AI lo legge, lo interpreta, lo riassume o lo estrae in formato strutturato — senza che tu debba trascrivere una parola.

Claude: il migliore per PDF e documenti lunghi
Lo screenshot qui sopra mostra una sessione reale su claude.ai. Il documento caricato è un preventivo tecnico per lo sviluppo di un applicativo web — il tipo di documento che normalmente si legge in dieci minuti cercando le informazioni rilevanti. La domanda è semplice: “Riassumi questo preventivo”.
Il messaggio “Identificato richiesta di sintesi preventivo” in cima alla risposta mostra che Claude ha classificato l’intento prima di elaborare — un segnale che il modello sta usando il contesto del documento, non rispondendo genericamente. La risposta è strutturata in cinque voci con etichetta in grassetto: Progetto, Obiettivo, Stack tecnologico, Funzionalità principali incluse, Condizioni generali. Ogni voce è un paragrafo conciso — non una trascrizione, ma una sintesi operativa. Il tempo? Sotto i 30 secondi dalla domanda alla risposta completa.
Perché Claude eccelle con i documenti
Il vantaggio di Claude su PDF e documenti testuali è strutturale: il modello è addestrato a mantenere coerenza su documenti lunghi e a distinguere informazioni esplicite da implicazioni. Per i PDF con molte pagine — contratti, relazioni tecniche, documenti legali — Claude tiene traccia del contesto dall’inizio alla fine senza degradare la qualità delle risposte. La versione gratuita su claude.ai supporta PDF fino a circa 100 pagine per sessione; i piani a pagamento rimuovono quel limite. Un punto da tenere presente: non caricare documenti con dati personali o riservati su istanze cloud senza aver verificato le policy sulla privacy del servizio.
GPT-4 Vision: il migliore per analisi visiva e immagini
Dove Claude brilla sui PDF testuali, GPT-4 Vision — accessibile via chatgpt.com, con il piano gratuito che include GPT-4o — eccelle con il contenuto visivo. Grafici, dashboard, schermate, fotografie di documenti cartacei: qualsiasi cosa il tuo occhio veda in un’immagine, GPT-4 Vision riesce a interpretarla e a restituirla in formato strutturato.

Lo screenshot mostra esattamente questo scenario. L’immagine caricata è lo stesso dashboard Google Sheets dell’articolo W2 di questa serie — con KPI numerici, grafico a barre delle urgenze, linea temporale degli accessi e grafico a ciambella della cittadinanza. La domanda: “Trascrivi tutti i dati in formato tabulare”. La risposta di GPT-4 Vision è una tabella pulita, con colonne Voce e Valore: Totale donne 12, Donne italiane 0, Età media 42, Età media per urgenze 26,8, Ore supporto totale 90 — esattamente i dati visibili nei celle della dashboard.
I casi d’uso più utili per GPT-4 Vision in contesto business
Grafici e dashboard: prendi screenshot di qualsiasi report visivo e chiedi di estrarne i dati in JSON, CSV o tabella markdown — pronta da incollare in Sheets o importare in un database. Documenti cartacei fotografati: una fattura fotografata con il telefono, una lavagna con note scritte a mano, un modulo compilato a penna — GPT-4 Vision legge testo scritto a mano con precisione sorprendente su grafia chiara. Diagrammi e schemi tecnici: carica un diagramma di flusso, un’architettura di sistema o uno schema elettrico e chiedi di descriverlo o di trasformarlo in testo strutturato. Per ogni caso d’uso, la regola pratica è la stessa: se riesci a vederlo nell’immagine, GPT-4 Vision riesce a estrarlo.
Gemini: il migliore per documenti enormi e contenuto multimediale
Il differenziatore di Gemini rispetto a Claude e GPT-4 non è la qualità del testo — su quel terreno i tre modelli si equivalgono per la maggior parte dei casi d’uso — è la finestra di contesto. Gemini 1.5 Pro supporta 2 milioni di token, equivalenti a circa 1.500 pagine di testo o due ore di video. Per confronto, Claude 3.5 Sonnet arriva a circa 200.000 token, GPT-4o a 128.000.

Lo screenshot mostra Gemini che riassume “The complete guide to Retrieval Augmented Generation” — una guida tecnica densa di diverse sezioni. La risposta è strutturata per sezione — Introduzione, Obiettivo, Soluzione di riferimento RAG — con citazioni inline visibili come badge (⬡+1, ⬡+2) che rimandano alle fonti specifiche nel documento originale. Lo stesso sistema di citazione che abbiamo visto con Claude Projects nell’articolo sul RAG: la risposta è verificabile, non generica.
Gemini per video e audio: il caso d’uso unico
La capacità che distingue davvero Gemini dagli altri due è il supporto nativo a video e audio. Gemini 2.0 Flash — gratuito — può analizzare un video di YouTube o un file audio caricato e rispondere a domande sul contenuto, estrarne le trascrizioni o sintetizzarne i punti chiave. Casi d’uso pratici: riassumere una riunione registrata senza trascriverla manualmente, estrarre le azioni discusse in una call, analizzare il contenuto di un webinar lungo per trovare i passaggi rilevanti. Nessuno degli altri tool in questa guida fa questo gratis e con questa semplicità.
Quale tool scegliere: la bussola pratica

La tabella qui sopra è tratta direttamente dal Modulo 9 del corso. Quattro righe, cinque colonne: Tool, Capacità, Costo, Facilità d’uso, Ideale per. Il pattern che emerge è chiaro: GPT-4 Vision ha l’interfaccia più intuitiva e i cinque stelle per facilità d’uso, ma costa €20 al mese. Claude e Gemini sono gratuiti con limiti, con quattro stelle su cinque per facilità d’uso. Gemini 1.5 Pro è l’unico che supporta “Tutto + 2M token” — la scelta per PDF enormi o dataset massici.
La raccomandazione pratica che emerge dal corso: usa Claude per uso quotidiano su PDF e documenti testuali — è gratuito, gestisce bene i documenti lunghi e non richiede account separati se hai già claude.ai. Aggiungi Gemini 1.5 Pro per i casi dove il documento è troppo lungo anche per Claude, o quando hai bisogno di analizzare video e audio. Valuta ChatGPT Plus se lavori molto con immagini, grafici fotografati o documenti cartacei scansionati, e se l’interfaccia più rifinita giustifica il costo mensile nel tuo caso d’uso specifico.
Privacy e GDPR: cosa non caricare
Tutti e tre i tool processano i contenuti caricati sui loro server. Per i dati personali, sensibili o riservati, la regola è semplice: prima di caricare un documento su un servizio cloud, verifica che il provider abbia firmato un DPA (Data Processing Agreement) compatibile con il GDPR europeo — Anthropic, Google e OpenAI offrono tutti questa opzione nei piani business e enterprise, non necessariamente nei piani gratuiti. Per i documenti più sensibili — contratti con dati personali di clienti, documentazione medica, informazioni finanziarie riservate — le alternative sono l’uso di istanze self-hosted o il preprocessing manuale per anonimizzare prima di caricare.
Il Modulo 9 documenta un risparmio di tempo dell’80-90% su attività di analisi documentale per chi ha adottato questi tool in modo sistematico. Non è un dato universale — dipende dal volume di documenti da processare e dalla complessità delle analisi richieste. Ma anche uno scenario conservativo, con un risparmio del 50% sul tempo di lettura e sintesi, è già sufficiente per giustificare l’adozione in qualsiasi contesto dove la gestione documentale è una parte significativa del lavoro quotidiano.
Prossima puntata: Sentiment Analysis e Topic Modeling
Con l’AI multimodale completiamo la copertura degli strumenti di ingestion: l’AI sa ora leggere testo, immagini, PDF e video. La settimana prossima spostiamo il focus sull’analisi: come trovare pattern in centinaia di testi, email o feedback clienti con Sentiment Analysis e Topic Modeling — senza leggere ogni riga. AI per analisi immagini PDF documenti: da strumenti passivi a co-analisti attivi. Il passo successivo è estrarre insight da grandi volumi di testo, non solo da singoli documenti.