Riassumere documenti

Estrarre automaticamente riassunti dai testi

Nell’era digitale, le informazioni viaggiano principalmente sul web. Milioni di articoli, posts su blog e libri vengono resi disponibili ogni giorno in rete. Tutta questa informazione è sicuramente una fonte inesauribile ma al tempo stesso molto difficile da gestire. Estrarre le informazioni di interesse e fornirle in modo conciso è una tematica che mi ha sempre affascinato. Durante il mio percorso universitario ho quindi studiato il data mining per capire come affrontare questo problema e trovare delle soluzioni. Utilizzare i documenti digitali apre un mondo di ricerca immenso. Negli anni sono stati sviluppati centinaia, se non migliaia, di approcci per gestire opportunamente le collezioni di documenti e analizzare le informazioni in essi contenute. I corsi universitari spesso forniscono solo le basi per iniziare ad affrontare il problema. Alcuni libri forniscono qualche informazione in più e alcune volte suggeriscono anche come impiegare queste tecniche su casi di studio concreti. Tutto il resto della conoscenza è “nascosto” negli articoli scientifici che solo i dottorandi e i ricercatori di solito leggono. Dopo uno studio approfondito di tutte queste tematiche, mi sono concentrato sulla text summarization.

libri volanti

Ma cos’è la text summarization? Molto semplicemente questa branca di ricerca studia metodologie innovative per estrarre dei riassunti dai testi. Gli approcci che vengono sviluppati sono basati principalmente sullo scomporre il testo di uno o più documenti in unità più piccole quali frasi o parole. Queste unità vengono poi analizzate mediante diverse tecniche per comprendere quali sono i concetti principali che sono trattati ed eventualmente le loro dipendenze. Infine, si va a ricreare un testo composto da un centinaio di parole al massimo che contiene le frasi o i concetti più rilevanti. Le soluzioni proposte sono quindi un tentativo di replica di ciò che la mente umana fa quando legge un libro scolastico per creare le sue mappe mentali per affrontare al meglio un’interrogazione o un esame universitario. Ovviamente la potenza di calcolo dei computer permette di analizzare quantità elevate di documenti in pochissimo tempo, anche se la qualità dei riassunti ottenuti non è ancora la migliore possibile.

 

In questo campo, ho provato quindi ad offrire anch’io un contributo. Ho scritto alcuni articoli sull’argomento e partecipato a conferenze internazionali su questi temi. Se siete interessati ai risultati che ho ottenuto potete consultare i seguenti articoli

Per fornire un supporto alla comunità scientifica ho deciso di fare l’editore di alcuni libri sull’argomento

Questi libri costituiscono una raccolta di lavori di altri studiosi che esplorano diversi approcci sulla generazione automatica di riassunti ed esamina le loro attuali applicazioni nel mondo reale in diversi campi. Essendo però focalizzati su argomenti avanzati, sono rivolti principalemente a ricercatori, studiosi e professionisti dell’informatica che hanno già conoscenze pregresse di data mining.

Se siete interessati a comprendere al meglio queste tematiche e a costruirvi un background culturale, vi suggerisco i seguenti libri:

Design with MongoDB

Design with MongoDB!!!

Buy the new book that will help you to use MongoDB correctly for your applications. Available now on Amazon!