La riduzione delle parole con iniziale maiuscola

La riduzione delle parole con iniziale maiuscola è una delle fasi del processo di normalizzazione di un testo.

Il caso dei poliformi e l'uso dei tag grammaticali

Si analizzano i termini del corpus che hanno una lettera maiuscola iniziale e non sono stati individuati come poliformi o nomi propri nella fase di disambiguazione.

Ad esempio, il termine "Rosso" non rientra tra i poliformi e i nomi propri, ma sarebbe errato interpretarlo come l'aggettivo "rosso". In questi casi è preferibile marcare questi termini con caratteri speciali o tag grammaticale ( es. <Rosso> ) per distinguerli dalle altre parole del corpus.

Questi gruppi di termini devono essere trattati con una procedura ad hoc.

I lemmi marchiati con i tag grammaticali che ricorrono più frequentemente nel corpus, possono essere interpretati dal ricercatore e aggiunti nella libreria personale del software di text mining.

I metodi per trattare i nomi propri

Nel text mining è buona norma trattare in modo diverso le parole con iniziale minuscola, associandogli un apposito separatore, differente dagli altri. Nel testo si possono verificare con molta frequenza le seguenti situazioni:

  • Il termine con iniziale maiuscola si trova in mezzo alla frase oppure è l'ultimo termine della frase. In questo caso è consigliabile analizzare il termine precedente ed eventualmente associarlo con un apposito separatore al termine con iniziale maiuscola. Ad esempio "dr Spock" va trasformato in "dr-Spock".
  • Il termine con iniziale minuscola si trova all'inizio della frase. E' una situazione più complessa da gestire, poiché tutti i termini in questa posizione hanno l'iniziale maiuscola ed è difficile distinguere i nomi propri da tutto il resto.


Un approccio più semplice elimina il problema considerando tutto il testo con lettere minuscole. Si tratta, tuttavia, di una semplificazione eccessiva che comporta la perdita di molte informazioni importanti del testo e rende più difficoltosa l'analisi del contenuto.

E' quindi preferibile adottare un metodo specifico per analizzare il primo termine della frase e individuare la sua natura.

Ad esempio, analizzando il primo termine delle frasi in un ampio database di articoli di giornale e libri, è possibile individuare quelli che ricorrono con maggiore frequenza.

Il confronto con i first-term più ricorrenti permette di riconoscere meglio la natura della prima parola e individuare per esclusione i possibili nomi propri posti a inizio frase.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Il text mining