La disambiguazione del testo
La disambiguazione delle forme grafiche è una fase della normalizzazione di un testo in un processo di text mining. Consiste nella riduzione dei termini del testo dalla polisemia alla monosemia . La disambiguazione è utile per trovare:
- Poliformi. I poliformi sono unità minime del senso del discorso ( lessie ) e non sono scomponibili. Alcuni esempi sono i modi dire: "veloce come il vento", "furbo come una volpe", ecc.
- Locuzioni grammaticali. Alcuni esempi di locuzioni grammaticali sono "in modo tale da", "di fatto", "a un certo punto", "nella misura in cui", ecc.
- Locuzioni polirematiche. Sono poliformi anche le locuzioni con funzione di sostantivo ( es. "carta di credito", "raccolta differenziata", ecc. ). Si tratta di gruppi di parole con significato diverso da quello dei singoli termini. Le polirematiche rappresentano circa 1/3 dell'intero vocabolario di lemmi e sottolemmi della lingua italiana.
- Sigle. Le sigle e gli acronimi indicano degli oggetti particolari della conoscenza. Ad esempio, si può scrivere "ONU" oppure "O.N.U." ma si indica comunque l'Organizzazione Mondiale delle Nazioni Unite.
- Nomi propri. Sono caratterizzati dalla lettera maiuscola iniziale e di frequente sono composti da due termini ( es. "Alessando Manzoni". Spesso una stessa entità della conoscenza è chiamata in modi differenti. Ad esempio, l'organizzazione ONU può essere indicata come "Palazzo di vetro", "Nazioni Uniti" o "Organizzazione Mondiale delle Nazioni Unite".
Per trattare questi termini come un'unica entità viene aggiunto un carattere separatore tra le parole ( es. "carta_di_credito" ).
In alternativa il gruppo di parole può essere inserito dentro due tag grammaticali di apertura e di chiusura ( es. {carta di credito} ) oppure sostituiti con un oggetto alfanumerico o numerato che identifica l'entità ( es. obj3213 ).