La classificazione automatica del testo

Un algoritmo di ricerca semantica individua il significato di un testo a partire dalle relazioni tra le parole di un corpus o di una frase. Le co-occorrenze consentono di risalire all'entità e alla categoria di appartenenza dell'argomento.

La categorizzazione di Dandelion

E' particolarmente interessante il lavoro di categorizzazione del testo compiuto dal sito Dandelion. L'opzione Text Classification consente di risalire all'entità di una breve frase in lingua inglese.

E' sufficiente inserire una breve frase inglese e l'algoritmo classificatore calcola un punteggio sulla base del confronto con le ontologie e associa la vicinanza della frase alle 12 macro categorie predefinite del diagramma di Kiat.

  1. Ambiente
  2. Scienza & tecnologia
  3. Economia, finanza & lavoro
  4. Politica
  5. Cronaca, leggi e incidenti
  6. Problemi sociali, guerre, conflitti
  7. Religione
  8. Cultura, divertiento, gossip
  9. Educazione
  10. Sport
  11. Salute & benessere
  12. Meteo

Quanto più la frase si avvicina a una tassonomia, tanto più risulta marcata la sua vicinanza. In questo modo, l'algoritmo formula un'ipotesi sul significato del testo.

le tassonomie della classificazione

La vicinanza della tassonomia. Tra le categorie sussiste una relazione di prossimità semantica. Ogni classe è collegata a quelle vicine da un collegamento semantico. Ad esempio, quando si parla di un problema ambientale si può espandere il discorso anche al meteo e alla scienza, ossia alle due macrocategorie più vicine.

Un esempio pratico di categorizzazione della frase

Digito nel tool il seguente titolo inglese di una news "Oil Producers Face Crude Change of Economics", preso a caso da Google News, e clicco sul pulsante Classify.

I pochi secondi l'algoritmo calcola i punteggi semantici, individuando due macrocategorie semantiche potenziali, environment ed economy.

esempio di classificazione semantica

L'algoritmo ha classificato correttamente la frase ( short sentence ). In effetti, l'argomento del testo si basa sull'ambiente e l'economia. Sono le entities corrette del documento.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base