La disambiguazione del testo

La disambiguazione delle forme grafiche è una fase della normalizzazione di un testo in un processo di text mining. Consiste nella riduzione dei termini del testo dalla polisemia alla monosemia . La disambiguazione è utile per trovare:

  1. Poliformi. I poliformi sono unità minime del senso del discorso ( lessie ) e non sono scomponibili. Alcuni esempi sono i modi dire: "veloce come il vento", "furbo come una volpe", ecc.
  2. Locuzioni grammaticali. Alcuni esempi di locuzioni grammaticali sono "in modo tale da", "di fatto", "a un certo punto", "nella misura in cui", ecc.
  3. Locuzioni polirematiche. Sono poliformi anche le locuzioni con funzione di sostantivo ( es. "carta di credito", "raccolta differenziata", ecc. ). Si tratta di gruppi di parole con significato diverso da quello dei singoli termini. Le polirematiche rappresentano circa 1/3 dell'intero vocabolario di lemmi e sottolemmi della lingua italiana.
  4. Sigle. Le sigle e gli acronimi indicano degli oggetti particolari della conoscenza. Ad esempio, si può scrivere "ONU" oppure "O.N.U." ma si indica comunque l'Organizzazione Mondiale delle Nazioni Unite.
  5. Nomi propri. Sono caratterizzati dalla lettera maiuscola iniziale e di frequente sono composti da due termini ( es. "Alessando Manzoni". Spesso una stessa entità della conoscenza è chiamata in modi differenti. Ad esempio, l'organizzazione ONU può essere indicata come "Palazzo di vetro", "Nazioni Uniti" o "Organizzazione Mondiale delle Nazioni Unite".

Per trattare questi termini come un'unica entità viene aggiunto un carattere separatore tra le parole ( es. "carta_di_credito" ).

In alternativa il gruppo di parole può essere inserito dentro due tag grammaticali di apertura e di chiusura ( es. {carta di credito} ) oppure sostituiti con un oggetto alfanumerico o numerato che identifica l'entità ( es. obj3213 ).

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Il text mining