AI Multimodale: analizza PDF, immagini e documenti con Claude, GPT-4 e Gemini

L'AI non legge più solo testo. Claude riassume un preventivo di 10 pagine in 30 secondi. GPT-4 Vision trascrive i dati da uno screenshot di dashboard in formato tabella pronta all'uso. Gemini 1.5 Pro naviga documenti da 1.000 pagine citando le fonti. Questa guida mostra come funzionano, quando usare quale tool e dove il risparmio di tempo è misurabile — con screenshot reali di sessioni operative.

Tempo di lettura: 6 minuti

L’AI non legge più solo testo. Claude analizza PDF di contratti in 30 secondi. GPT-4 Vision estrae dati strutturati da screenshot e grafici fotografati. Gemini 1.5 Pro naviga documenti da mille pagine citando i passaggi rilevanti. Questa guida mostra come funzionano i principali tool di AI multimodale, con casi d’uso business concreti e screenshot reali. Settima puntata del percorso Stack Digitale 2026.

Per capire cosa cambia con l’AI multimodale, basta pensare a una settimana di lavoro normale. Quanti PDF hai aperto per trovare una singola clausola? Quante volte hai riscritto a mano i dati di una tabella fotografata per portarli in un foglio di calcolo? Quante ore hai impiegato a riassumere documenti tecnici prima di una riunione?

Tutte queste attività hanno una cosa in comune: il collo di bottiglia non è l’analisi, è l’ingestion — portare il documento in un formato che il tuo cervello o un tool possa elaborare. L’AI multimodale elimina quel collo di bottiglia. Carichi direttamente il PDF, l’immagine, lo screenshot. L’AI lo legge, lo interpreta, lo riassume o lo estrae in formato strutturato — senza che tu debba trascrivere una parola.

Claude Sonnet 4.6 riassume preventivo PDF: progetto certose piemontesi con stack NoSQL Docker e funzionalità principali — Claude riassume un preventivo tecnico di più pagine in pochi secondi — con Progetto, Obiettivo, Stack e Condizioni già strutturati

Claude: il migliore per PDF e documenti lunghi

Lo screenshot qui sopra mostra una sessione reale su claude.ai. Il documento caricato è un preventivo tecnico per lo sviluppo di un applicativo web — il tipo di documento che normalmente si legge in dieci minuti cercando le informazioni rilevanti. La domanda è semplice: “Riassumi questo preventivo”.

Il messaggio “Identificato richiesta di sintesi preventivo” in cima alla risposta mostra che Claude ha classificato l’intento prima di elaborare — un segnale che il modello sta usando il contesto del documento, non rispondendo genericamente. La risposta è strutturata in cinque voci con etichetta in grassetto: Progetto, Obiettivo, Stack tecnologico, Funzionalità principali incluse, Condizioni generali. Ogni voce è un paragrafo conciso — non una trascrizione, ma una sintesi operativa. Il tempo? Sotto i 30 secondi dalla domanda alla risposta completa.

Perché Claude eccelle con i documenti

Il vantaggio di Claude su PDF e documenti testuali è strutturale: il modello è addestrato a mantenere coerenza su documenti lunghi e a distinguere informazioni esplicite da implicazioni. Per i PDF con molte pagine — contratti, relazioni tecniche, documenti legali — Claude tiene traccia del contesto dall’inizio alla fine senza degradare la qualità delle risposte. La versione gratuita su claude.ai supporta PDF fino a circa 100 pagine per sessione; i piani a pagamento rimuovono quel limite. Un punto da tenere presente: non caricare documenti con dati personali o riservati su istanze cloud senza aver verificato le policy sulla privacy del servizio.

GPT-4 Vision: il migliore per analisi visiva e immagini

Dove Claude brilla sui PDF testuali, GPT-4 Vision — accessibile via chatgpt.com, con il piano gratuito che include GPT-4o — eccelle con il contenuto visivo. Grafici, dashboard, schermate, fotografie di documenti cartacei: qualsiasi cosa il tuo occhio veda in un’immagine, GPT-4 Vision riesce a interpretarla e a restituirla in formato strutturato.

ChatGPT GPT-4 Vision trascrive dashboard Google Sheets in tabella: Totale donne 12, Età media 42, Ore supporto 90 — GPT-4 Vision estrae i dati numerici da uno screenshot di dashboard e li restituisce in tabella pronta per l’analisi

Lo screenshot mostra esattamente questo scenario. L’immagine caricata è lo stesso dashboard Google Sheets dell’articolo W2 di questa serie — con KPI numerici, grafico a barre delle urgenze, linea temporale degli accessi e grafico a ciambella della cittadinanza. La domanda: “Trascrivi tutti i dati in formato tabulare”. La risposta di GPT-4 Vision è una tabella pulita, con colonne Voce e Valore: Totale donne 12, Donne italiane 0, Età media 42, Età media per urgenze 26,8, Ore supporto totale 90 — esattamente i dati visibili nei celle della dashboard.

I casi d’uso più utili per GPT-4 Vision in contesto business

Grafici e dashboard: prendi screenshot di qualsiasi report visivo e chiedi di estrarne i dati in JSON, CSV o tabella markdown — pronta da incollare in Sheets o importare in un database. Documenti cartacei fotografati: una fattura fotografata con il telefono, una lavagna con note scritte a mano, un modulo compilato a penna — GPT-4 Vision legge testo scritto a mano con precisione sorprendente su grafia chiara. Diagrammi e schemi tecnici: carica un diagramma di flusso, un’architettura di sistema o uno schema elettrico e chiedi di descriverlo o di trasformarlo in testo strutturato. Per ogni caso d’uso, la regola pratica è la stessa: se riesci a vederlo nell’immagine, GPT-4 Vision riesce a estrarlo.

Gemini: il migliore per documenti enormi e contenuto multimediale

Il differenziatore di Gemini rispetto a Claude e GPT-4 non è la qualità del testo — su quel terreno i tre modelli si equivalgono per la maggior parte dei casi d’uso — è la finestra di contesto. Gemini 1.5 Pro supporta 2 milioni di token, equivalenti a circa 1.500 pagine di testo o due ore di video. Per confronto, Claude 3.5 Sonnet arriva a circa 200.000 token, GPT-4o a 128.000.

Gemini riassume The complete guide to RAG con sezioni Introduzione Obiettivo Soluzione di riferimento e citazioni inline — Gemini riassume un documento tecnico multi-sezione citando le fonti con link inline — gratis, senza installazioni

Lo screenshot mostra Gemini che riassume “The complete guide to Retrieval Augmented Generation” — una guida tecnica densa di diverse sezioni. La risposta è strutturata per sezione — Introduzione, Obiettivo, Soluzione di riferimento RAG — con citazioni inline visibili come badge (⬡+1, ⬡+2) che rimandano alle fonti specifiche nel documento originale. Lo stesso sistema di citazione che abbiamo visto con Claude Projects nell’articolo sul RAG: la risposta è verificabile, non generica.

Gemini per video e audio: il caso d’uso unico

La capacità che distingue davvero Gemini dagli altri due è il supporto nativo a video e audio. Gemini 2.0 Flash — gratuito — può analizzare un video di YouTube o un file audio caricato e rispondere a domande sul contenuto, estrarne le trascrizioni o sintetizzarne i punti chiave. Casi d’uso pratici: riassumere una riunione registrata senza trascriverla manualmente, estrarre le azioni discusse in una call, analizzare il contenuto di un webinar lungo per trovare i passaggi rilevanti. Nessuno degli altri tool in questa guida fa questo gratis e con questa semplicità.

Quale tool scegliere: la bussola pratica

Tabella confronto AI multimodale: GPT-4 Vision 5 stelle €20 mese, Claude gratuito PDF lunghi, Gemini gratuito video audio — La tabella del Modulo 9: quattro tool, quattro punti di forza diversi — nessuno è il migliore in assoluto

La tabella qui sopra è tratta direttamente dal Modulo 9 del corso. Quattro righe, cinque colonne: Tool, Capacità, Costo, Facilità d’uso, Ideale per. Il pattern che emerge è chiaro: GPT-4 Vision ha l’interfaccia più intuitiva e i cinque stelle per facilità d’uso, ma costa €20 al mese. Claude e Gemini sono gratuiti con limiti, con quattro stelle su cinque per facilità d’uso. Gemini 1.5 Pro è l’unico che supporta “Tutto + 2M token” — la scelta per PDF enormi o dataset massici.

La raccomandazione pratica che emerge dal corso: usa Claude per uso quotidiano su PDF e documenti testuali — è gratuito, gestisce bene i documenti lunghi e non richiede account separati se hai già claude.ai. Aggiungi Gemini 1.5 Pro per i casi dove il documento è troppo lungo anche per Claude, o quando hai bisogno di analizzare video e audio. Valuta ChatGPT Plus se lavori molto con immagini, grafici fotografati o documenti cartacei scansionati, e se l’interfaccia più rifinita giustifica il costo mensile nel tuo caso d’uso specifico.

Privacy e GDPR: cosa non caricare

Tutti e tre i tool processano i contenuti caricati sui loro server. Per i dati personali, sensibili o riservati, la regola è semplice: prima di caricare un documento su un servizio cloud, verifica che il provider abbia firmato un DPA (Data Processing Agreement) compatibile con il GDPR europeo — Anthropic, Google e OpenAI offrono tutti questa opzione nei piani business e enterprise, non necessariamente nei piani gratuiti. Per i documenti più sensibili — contratti con dati personali di clienti, documentazione medica, informazioni finanziarie riservate — le alternative sono l’uso di istanze self-hosted o il preprocessing manuale per anonimizzare prima di caricare.

Il Modulo 9 documenta un risparmio di tempo dell’80-90% su attività di analisi documentale per chi ha adottato questi tool in modo sistematico. Non è un dato universale — dipende dal volume di documenti da processare e dalla complessità delle analisi richieste. Ma anche uno scenario conservativo, con un risparmio del 50% sul tempo di lettura e sintesi, è già sufficiente per giustificare l’adozione in qualsiasi contesto dove la gestione documentale è una parte significativa del lavoro quotidiano.

Prossima puntata: Sentiment Analysis e Topic Modeling

Con l’AI multimodale completiamo la copertura degli strumenti di ingestion: l’AI sa ora leggere testo, immagini, PDF e video. La settimana prossima spostiamo il focus sull’analisi: come trovare pattern in centinaia di testi, email o feedback clienti con Sentiment Analysis e Topic Modeling — senza leggere ogni riga. AI per analisi immagini PDF documenti: da strumenti passivi a co-analisti attivi. Il passo successivo è estrarre insight da grandi volumi di testo, non solo da singoli documenti.

More To Explore

Database

Apache Kafka Parte 1: stream processing e perché cambia tutto

Kafka non è un semplice message broker — è il sistema nervoso distribuito di Netflix, LinkedIn e Uber. Gestisce milioni di eventi al secondo senza perderne uno, in ordine garantito per partizione. Questa prima puntata spiega i concetti fondamentali (topic, partizioni, offset, consumer group) con un caso d’uso reale: le 50 stazioni ARPA Piemonte del progetto Smart City del Politecnico di Torino.

Alessandro Fiori 6 Luglio 2026

Sviluppo

Supabase: il backend open source per le tue app vibe-coded

Lovable e Bolt costruiscono il frontend in minuti. Ma dove vivono i dati degli utenti? Come funziona il login? Chi può vedere cosa? Supabase risponde a tutte queste domande: PostgreSQL managed, autenticazione pronta all’uso, storage e Row Level Security — tutto gratuito fino a un certo volume, tutto integrabile con un click dai principali tool di vibe coding.

Alessandro Fiori 29 Giugno 2026