RAG: il chatbot che conosce davvero la tua azienda

RAG (Retrieval-Augmented Generation) è la tecnica che trasforma un LLM generico in un assistente che risponde dai tuoi documenti interni. Questa guida mostra come funziona la pipeline — chunking, embedding, vector store, retrieval — e come implementarla oggi: senza codice con Claude Projects e Chatbase, o in modo custom con LangChain e LlamaIndex.

Tempo di lettura: 6 minuti

RAG non è un tool — è una tecnica architetturale che trasforma un LLM generico in un assistente che risponde attingendo ai tuoi documenti. Prima cerca i passaggi rilevanti nel tuo knowledge base, poi genera la risposta citando la fonte. Questa guida mostra come funziona la pipeline, come provarlo subito senza codice con Claude Projects e Chatbase, e quando ha senso costruire una soluzione custom. Sesta puntata del percorso Stack Digitale 2026.

Se hai letto l’articolo su Voiceflow in questa serie, hai già costruito un chatbot no-code che risponde alle FAQ e scala verso un operatore umano. Ma c’è qualcosa che quell’articolo non entrava a spiegare: quando carichi i documenti nel knowledge base di Voiceflow, sotto al cofano sta applicando esattamente la tecnica RAG. Questa guida ti spiega cosa succede davvero — e come replicarlo, con o senza Voiceflow, usando strumenti che probabilmente hai già a disposizione.

Il problema che RAG risolve è preciso. Un LLM addestrato su miliardi di documenti generici non conosce le tue procedure interne, il tuo catalogo prodotti, le tue FAQ specifiche. Chiedi “qual è la nostra politica di reso?” e risponde con qualcosa di plausibile ma inutile. RAG inserisce i tuoi documenti nel contesto della risposta — il modello risponde come se avesse appena letto la pagina giusta del tuo manuale, perché tecnicamente è esattamente quello che ha fatto.

Pipeline RAG LangChain: Source con icone file, Embed vettori numerici, Store database viola, Retrieve — La pipeline RAG dalla documentazione LangChain: dal documento sorgente al chunk recuperato

Come funziona il RAG: la pipeline in cinque step

Il diagramma qui sopra è tratto dalla documentazione ufficiale di LangChain e mostra la fase di data connection — come i documenti vengono preparati prima che qualsiasi domanda venga fatta. Tutti i tool in questa guida — Claude Projects, Chatbase, LangChain — applicano questa stessa pipeline con diversi livelli di astrazione.

Chunking: il documento diventa frammenti ricercabili

Un PDF di 50 pagine non entra tutto nel contesto del modello — sarebbe troppo lungo, costoso e impreciso. Il primo step è il chunking: il documento viene suddiviso in frammenti più piccoli, tipicamente da 200 a 1.000 token ciascuno, con un piccolo overlap tra un chunk e il successivo per non perdere il contesto ai bordi. La qualità del chunking è uno dei fattori più critici per la qualità delle risposte: chunk troppo piccoli perdono il contesto, chunk troppo grandi rallentano il retrieval e riducono la precisione.

Embedding e vector store: la ricerca semantica

Ogni chunk viene trasformato in un vettore numerico (embedding) da un modello specifico. Questi vettori vengono archiviati in un database vettoriale — Chroma (locale, gratuito), Pinecone (cloud, free tier disponibile), FAISS (in-memory, ideale per produzione). La parte interessante è questa: due frasi con parole completamente diverse ma significato simile hanno vettori vicini nello spazio. “Come si fa il rimborso?” e “procedura restituzione merce” vengono mappate quasi nello stesso punto — il retrieval trova la risposta giusta anche quando la domanda è formulata in modo diverso rispetto al documento sorgente.

Retrieval e generation: il prompt aumentato

Quando l’utente fa una domanda, anche questa viene trasformata in un vettore e confrontata con tutti i chunk nel database. I 3-5 chunk più simili vengono recuperati e inseriti nel prompt del modello: “Rispondi a questa domanda basandoti su questi documenti: [chunk 1] [chunk 2]. Domanda: [domanda utente]”. Il modello genera la risposta usando quei frammenti come contesto — e può citare la fonte perché sa da quale documento proviene ogni chunk.

RAG senza una riga di codice: Claude Projects

Il percorso più rapido per sperimentare RAG in pratica non richiede nessuna configurazione tecnica. Claude Projects — disponibile nei piani Pro, Max, Team ed Enterprise — è essenzialmente un sistema RAG pronto all’uso: carichi documenti nel progetto, Claude li indicizza automaticamente, e ogni conversazione attinge a quei documenti come knowledge base.

Claude Projects risposta ciclo while Python con citazione fonte Politecnico Torino e sidebar PDF corso — Claude Projects in azione: risposta con citazione della fonte esatta dal materiale del corso

Lo screenshot è una dimostrazione reale. La domanda è diretta: “Mi fornisci un esempio dei cicli in Python con il while. Citami la fonte.” Claude non risponde dalla sua conoscenza generale — il messaggio “Recuperate informazioni sulla fonte per esempi while loop” in cima alla risposta mostra esplicitamente che il retrieval è avvenuto prima della generazione. La risposta include codice Python funzionante e la citazione precisa: Fonte: Unità P4 – Cicli, Politecnico di Torino, 2023/24, corso di Informatica. La sidebar destra mostra i tre PDF caricati nel progetto — da lì viene l’informazione, non dalla conoscenza pregressa del modello.

Quando Claude Projects non basta

Claude Projects è ideale per uso personale o in team piccolo: ricerca su documentazione interna, studio su materiali caricati, assistente su procedure aziendali per uso interno. I limiti emergono quando hai bisogno di un chatbot deployabile su un sito web pubblico, di gestire conversazioni di utenti anonimi, di scalare a centinaia di sessioni simultanee o di integrare il chatbot in sistemi CRM o gestionali esistenti. Per questi scenari, i tool della sezione successiva sono più adatti.

Chatbase: chatbot aziendale online in dieci minuti

Chatbase Playground agente addestrato su PDF con chat preview e sidebar Data sources — Chatbase dopo 4 minuti di training: il chatbot è pronto e testabile nella chat di preview

Chatbase è il punto intermedio tra zero codice e implementazione custom. Crei un account gratuito su chatbase.co, carichi i tuoi PDF o incolli l’URL del tuo sito, aspetti il training — nel caso dello screenshot 4 minuti per 49 KB di documenti — e ottieni un chatbot embedabille su qualsiasi pagina web con due righe di JavaScript. Il piano gratuito include 50 crediti mensili di conversazione e il modello GPT-5.4 Mini.

Per un caso d’uso aziendale reale — FAQ sul sito, supporto clienti base, assistente per il team interno — il piano Hobby a circa 19 dollari al mese porta i crediti a 2.000 e sblocca i modelli più potenti. Non è la soluzione più flessibile, ma ha il time-to-value più basso della categoria: dall’iscrizione al chatbot live sul sito ci vuole meno di un’ora, senza scrivere una riga di codice.

Per chi sviluppa: LangChain, LlamaIndex e i vector database

Diagramma pipeline RAG completa con zone LlamaIndex turchese e LangChain viola e card comparative — LlamaIndex gestisce l’indicizzazione, LangChain orchestra il workflow: complementari per natura

Quando i tool no-code non coprono le esigenze — chunking personalizzato, retriever avanzati, integrazione con database proprietari, pipeline multi-step con agenti autonomi — entrano in scena LangChain e LlamaIndex. Il diagramma mostra come si complementano: LlamaIndex gestisce la fase di indicizzazione (chunking intelligente, tipi di indice differenziati, retriever specializzati come Parent Document Retriever o Self-Query Retriever), LangChain orchestra l’intero workflow (query rewriting, prompt assembly, gestione del contesto conversazionale).

Per i vector database nel 2026, le opzioni principali sono: Chroma per sviluppo locale e prototipazione rapida (zero configurazione, in-memory o su disco), Pinecone per produzione cloud con scaling automatico, Qdrant come alternativa open source self-hostabile con ottime performance su grandi volumi, FAISS per scenari in-memory ad alta velocità. Per la grande maggioranza dei casi d’uso aziendali, Chroma durante lo sviluppo e Pinecone in produzione è una combinazione solida e ben documentata.

Tre limiti da conoscere prima di implementare

RAG riduce le allucinazioni ma non le elimina. Se la risposta corretta non è in nessun documento del knowledge base, il modello può comunque generare qualcosa di plausibile invece di ammettere di non sapere. Aggiungere un meccanismo di fallback esplicito — “non ho trovato informazioni su questo argomento nei documenti disponibili” — è parte integrante di ogni implementazione robusta.

Il chunking mal fatto è la causa numero uno di risposte scadenti. Chunk troppo piccoli perdono il contesto; chunk spezzati nel mezzo di una tabella o di un elenco restituiscono frammenti incomprensibili. Investire nel preprocessing dei documenti — rimozione di header e footer ridondanti, segmentazione per sezione semantica invece che per numero di caratteri — ha spesso più impatto che ottimizzare il modello o il retriever.

Il costo scala con la lunghezza delle conversazioni. Ogni turno aggiunge token al contesto. Su modelli come GPT-4o o Claude 3.5 con chunk relativamente lunghi e conversazioni multi-turno, il costo per sessione può diventare significativo in produzione. Monitorare il token usage dall’inizio è più semplice che ottimizzare retroattivamente dopo il deploy.

Il prossimo articolo: AI multimodale

Con RAG chiudiamo il cerchio della gestione intelligente dei documenti testuali. La settimana prossima l’AI impara a vedere: GPT-4 Vision e Claude per analizzare immagini, PDF complessi, screenshot e moduli cartacei digitalizzati. Il chatbot aziendale con RAG risponde dai tuoi documenti — l’AI multimodale li vede, anche quando non sono ancora in formato testo.

More To Explore

Database

Apache Kafka Parte 1: stream processing e perché cambia tutto

Kafka non è un semplice message broker — è il sistema nervoso distribuito di Netflix, LinkedIn e Uber. Gestisce milioni di eventi al secondo senza perderne uno, in ordine garantito per partizione. Questa prima puntata spiega i concetti fondamentali (topic, partizioni, offset, consumer group) con un caso d’uso reale: le 50 stazioni ARPA Piemonte del progetto Smart City del Politecnico di Torino.

Alessandro Fiori 6 Luglio 2026

Sviluppo

Supabase: il backend open source per le tue app vibe-coded

Lovable e Bolt costruiscono il frontend in minuti. Ma dove vivono i dati degli utenti? Come funziona il login? Chi può vedere cosa? Supabase risponde a tutte queste domande: PostgreSQL managed, autenticazione pronta all’uso, storage e Row Level Security — tutto gratuito fino a un certo volume, tutto integrabile con un click dai principali tool di vibe coding.

Alessandro Fiori 29 Giugno 2026