Text Mining

Il text mining è un'analisi che estrae informazioni a valore aggiunto dai testi. E' anche detto text data mining o text analytics.

A cosa serve? Può avere finalità di indagine, statistiche o predittive. Gran parte delle informazioni rilevanti di un'organizzazione ( azienda, governo, ecc. ) sono bloccate in forma testuale, impossibili da elaborare automaticamente. Ad esempio, le email o i commenti dei lettori sul sito web di un giornale. E' una conoscenza potenziale non sfruttata. Il text mining la individua e le trasforma in dati strutturati.
il processo di text mining

Le applicazioni del text mining

Negli anni '80 il text mining aveva soprattutto scopi governativi ed era usato nelle operazioni di business intelligence.

Con la crescita di potenza dei computer e la riduzione dei costi di elaborazione, il text mining si è diffuso anche in ambito aziendale.

Oggi è utilizzato per scovare informazioni nascoste nei documenti di un'impresa.

Nota. Se riguarda l'analisi dei documenti aziendali è detto text analytics secondo una definizione coniata nel 2004 da Ronen Feldman.

E' usato anche nell'apprendimento automatico ( machine learning ).

Come funziona il text mining

L'estrazione delle informazioni implica un processo di strutturazione del testo, per convertire il linguaggio naturale in un linguaggio strutturato e formale.

il processo di text mining

Le fasi funzionali del processo di text mining sono molteplici:

  • Categorizzazione del testo. Si assegnano delle categorie al testo. In genere, è una delle fasi iniziali del processo di TM.
  • Clustering del testo. Si classificano i documenti di testi in cluster, ossia insiemi di testo che parlano di uno stesso argomento o usano le stesse parole chiavi.
  • Estrazione dei concetti, informazioni e entità. Si estrae un'informazione significativa dal testo tramite un processo automatizzato.
  • Modellazione delle relazioni tra le entità. Si individuano le relazioni logiche tra le entità presenti nel contenuto.
  • Individuazione delle tassonomia granulari. Si individuano le tassonomie nel contenuto testuale.
  • Analisi del sentiment. Si estraggono le informazioni soggettive nel contenuto. Individua il sentimento ( le emozioni ) di chi l'ha scritto. L'analisi del sentimento è anche detta Opinion Mining.

Esempio. Il processo di text mining consiste nell'aggiunta di etichette alle parole, per descriverne le caratteristiche linguistiche, nella rimozione dei termini inutili ( stop words ), la segmentazione dei termini, ecc.

Il prodotto finale è un insieme di dati strutturati da elaborare e interpretare tramite un algoritmo per estrarre le informazioni di alta qualità.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Il text mining