RAG non è un tool — è una tecnica architetturale che trasforma un LLM generico in un assistente che risponde attingendo ai tuoi documenti. Prima cerca i passaggi rilevanti nel tuo knowledge base, poi genera la risposta citando la fonte. Questa guida mostra come funziona la pipeline, come provarlo subito senza codice con Claude Projects e Chatbase, e quando ha senso costruire una soluzione custom. Sesta puntata del percorso Stack Digitale 2026.
Se hai letto l’articolo su Voiceflow in questa serie, hai già costruito un chatbot no-code che risponde alle FAQ e scala verso un operatore umano. Ma c’è qualcosa che quell’articolo non entrava a spiegare: quando carichi i documenti nel knowledge base di Voiceflow, sotto al cofano sta applicando esattamente la tecnica RAG. Questa guida ti spiega cosa succede davvero — e come replicarlo, con o senza Voiceflow, usando strumenti che probabilmente hai già a disposizione.
Il problema che RAG risolve è preciso. Un LLM addestrato su miliardi di documenti generici non conosce le tue procedure interne, il tuo catalogo prodotti, le tue FAQ specifiche. Chiedi “qual è la nostra politica di reso?” e risponde con qualcosa di plausibile ma inutile. RAG inserisce i tuoi documenti nel contesto della risposta — il modello risponde come se avesse appena letto la pagina giusta del tuo manuale, perché tecnicamente è esattamente quello che ha fatto.

Come funziona il RAG: la pipeline in cinque step
Il diagramma qui sopra è tratto dalla documentazione ufficiale di LangChain e mostra la fase di data connection — come i documenti vengono preparati prima che qualsiasi domanda venga fatta. Tutti i tool in questa guida — Claude Projects, Chatbase, LangChain — applicano questa stessa pipeline con diversi livelli di astrazione.
Chunking: il documento diventa frammenti ricercabili
Un PDF di 50 pagine non entra tutto nel contesto del modello — sarebbe troppo lungo, costoso e impreciso. Il primo step è il chunking: il documento viene suddiviso in frammenti più piccoli, tipicamente da 200 a 1.000 token ciascuno, con un piccolo overlap tra un chunk e il successivo per non perdere il contesto ai bordi. La qualità del chunking è uno dei fattori più critici per la qualità delle risposte: chunk troppo piccoli perdono il contesto, chunk troppo grandi rallentano il retrieval e riducono la precisione.
Embedding e vector store: la ricerca semantica
Ogni chunk viene trasformato in un vettore numerico (embedding) da un modello specifico. Questi vettori vengono archiviati in un database vettoriale — Chroma (locale, gratuito), Pinecone (cloud, free tier disponibile), FAISS (in-memory, ideale per produzione). La parte interessante è questa: due frasi con parole completamente diverse ma significato simile hanno vettori vicini nello spazio. “Come si fa il rimborso?” e “procedura restituzione merce” vengono mappate quasi nello stesso punto — il retrieval trova la risposta giusta anche quando la domanda è formulata in modo diverso rispetto al documento sorgente.
Retrieval e generation: il prompt aumentato
Quando l’utente fa una domanda, anche questa viene trasformata in un vettore e confrontata con tutti i chunk nel database. I 3-5 chunk più simili vengono recuperati e inseriti nel prompt del modello: “Rispondi a questa domanda basandoti su questi documenti: [chunk 1] [chunk 2]. Domanda: [domanda utente]”. Il modello genera la risposta usando quei frammenti come contesto — e può citare la fonte perché sa da quale documento proviene ogni chunk.
RAG senza una riga di codice: Claude Projects
Il percorso più rapido per sperimentare RAG in pratica non richiede nessuna configurazione tecnica. Claude Projects — disponibile nei piani Pro, Max, Team ed Enterprise — è essenzialmente un sistema RAG pronto all’uso: carichi documenti nel progetto, Claude li indicizza automaticamente, e ogni conversazione attinge a quei documenti come knowledge base.

Lo screenshot è una dimostrazione reale. La domanda è diretta: “Mi fornisci un esempio dei cicli in Python con il while. Citami la fonte.” Claude non risponde dalla sua conoscenza generale — il messaggio “Recuperate informazioni sulla fonte per esempi while loop” in cima alla risposta mostra esplicitamente che il retrieval è avvenuto prima della generazione. La risposta include codice Python funzionante e la citazione precisa: Fonte: Unità P4 – Cicli, Politecnico di Torino, 2023/24, corso di Informatica. La sidebar destra mostra i tre PDF caricati nel progetto — da lì viene l’informazione, non dalla conoscenza pregressa del modello.
Quando Claude Projects non basta
Claude Projects è ideale per uso personale o in team piccolo: ricerca su documentazione interna, studio su materiali caricati, assistente su procedure aziendali per uso interno. I limiti emergono quando hai bisogno di un chatbot deployabile su un sito web pubblico, di gestire conversazioni di utenti anonimi, di scalare a centinaia di sessioni simultanee o di integrare il chatbot in sistemi CRM o gestionali esistenti. Per questi scenari, i tool della sezione successiva sono più adatti.
Chatbase: chatbot aziendale online in dieci minuti

Chatbase è il punto intermedio tra zero codice e implementazione custom. Crei un account gratuito su chatbase.co, carichi i tuoi PDF o incolli l’URL del tuo sito, aspetti il training — nel caso dello screenshot 4 minuti per 49 KB di documenti — e ottieni un chatbot embedabille su qualsiasi pagina web con due righe di JavaScript. Il piano gratuito include 50 crediti mensili di conversazione e il modello GPT-5.4 Mini.
Per un caso d’uso aziendale reale — FAQ sul sito, supporto clienti base, assistente per il team interno — il piano Hobby a circa 19 dollari al mese porta i crediti a 2.000 e sblocca i modelli più potenti. Non è la soluzione più flessibile, ma ha il time-to-value più basso della categoria: dall’iscrizione al chatbot live sul sito ci vuole meno di un’ora, senza scrivere una riga di codice.
Per chi sviluppa: LangChain, LlamaIndex e i vector database

Quando i tool no-code non coprono le esigenze — chunking personalizzato, retriever avanzati, integrazione con database proprietari, pipeline multi-step con agenti autonomi — entrano in scena LangChain e LlamaIndex. Il diagramma mostra come si complementano: LlamaIndex gestisce la fase di indicizzazione (chunking intelligente, tipi di indice differenziati, retriever specializzati come Parent Document Retriever o Self-Query Retriever), LangChain orchestra l’intero workflow (query rewriting, prompt assembly, gestione del contesto conversazionale).
Per i vector database nel 2026, le opzioni principali sono: Chroma per sviluppo locale e prototipazione rapida (zero configurazione, in-memory o su disco), Pinecone per produzione cloud con scaling automatico, Qdrant come alternativa open source self-hostabile con ottime performance su grandi volumi, FAISS per scenari in-memory ad alta velocità. Per la grande maggioranza dei casi d’uso aziendali, Chroma durante lo sviluppo e Pinecone in produzione è una combinazione solida e ben documentata.
Tre limiti da conoscere prima di implementare
RAG riduce le allucinazioni ma non le elimina. Se la risposta corretta non è in nessun documento del knowledge base, il modello può comunque generare qualcosa di plausibile invece di ammettere di non sapere. Aggiungere un meccanismo di fallback esplicito — “non ho trovato informazioni su questo argomento nei documenti disponibili” — è parte integrante di ogni implementazione robusta.
Il chunking mal fatto è la causa numero uno di risposte scadenti. Chunk troppo piccoli perdono il contesto; chunk spezzati nel mezzo di una tabella o di un elenco restituiscono frammenti incomprensibili. Investire nel preprocessing dei documenti — rimozione di header e footer ridondanti, segmentazione per sezione semantica invece che per numero di caratteri — ha spesso più impatto che ottimizzare il modello o il retriever.
Il costo scala con la lunghezza delle conversazioni. Ogni turno aggiunge token al contesto. Su modelli come GPT-4o o Claude 3.5 con chunk relativamente lunghi e conversazioni multi-turno, il costo per sessione può diventare significativo in produzione. Monitorare il token usage dall’inizio è più semplice che ottimizzare retroattivamente dopo il deploy.
Il prossimo articolo: AI multimodale
Con RAG chiudiamo il cerchio della gestione intelligente dei documenti testuali. La settimana prossima l’AI impara a vedere: GPT-4 Vision e Claude per analizzare immagini, PDF complessi, screenshot e moduli cartacei digitalizzati. Il chatbot aziendale con RAG risponde dai tuoi documenti — l’AI multimodale li vede, anche quando non sono ancora in formato testo.