Analisi dei segmenti lessicali

L'analisi dei segmenti del testo consiste nell'individuazione delle parole multiple all'interno di un testo. Questa operazione nel text mining è detta anche segmentazione.

Come funziona la segmentazione

Come prima cosa si definisce una determinata ampiezza N delle forme grafiche. Per ampiezza si intende il numero delle parole contenute nel segmento.

Il secondo passo consiste nell'analizzare tutti i segmenti del testo, ossia le combinazioni di parole successive, per individuare quelle più ripetute e frequenti.

La segmentazione è utile per trovare le locuzioni polirematiche, locuzioni quotidiane e i nomi composti.

Esempio di analisi dei segmenti lessicali di una frase

Ad esempio le parole composte "search engine marketing" e "search engine optimization" hanno i primi due termini uguali ( search engine ) ma il terzo termine associa un significato diverso all'intero gruppo

Analizzando le singole parole, l'una dopo l'altra, non potremmo accorgerci di questa accezione semantica. Per trovare il vero significato delle parole dobbiamo analizzarle come un segmento di termini.

Allo stesso modo ci sono alcune locuzioni quotidiane e modi di dire che hanno un significato diverso da quello letterale. Ad esempio, "a tutta velocità", "tornare alla carica", "indietro tutta", "a buon mercato", ecc.

Le liste di segmenti comuni e specifici

Nei software di text mining sono già presenti delle liste di default con le sequenze di termini più comuni del linguaggio.

Tuttavia, per avere un risultato migliore è consigliabile aggiungere alle liste di default anche delle liste di segmenti specifici della materia o dell'argomento trattato nel testo.

In molti casi l'interpretazione corretta del significato dei segmenti lessicali varia radicalmente a seconda del contesto in cui si trovano.

In pratica, uno stesso segmento letterale può essere associato a entità semantiche differenti a seconda del contesto in cui si trova

un esempio di significato differente del segmento a seconda del contesto

Ad esempio "indietro tutta" è una manovra ben precisa in ambito nautico mentre significa "fermarsi e ricominciare tutto da capo" nel linguaggio comune, oppure un noto programma tv degli anni '80 in ambito televisivo.

Qual è il significato corretto del segmento? Per capirlo dobbiamo analizzare il contesto, ossia le altre parole della frase, del testo o del sito ( co-occorrenze ).

Quali segmenti analizzare

La scelta dei segmenti da analizzare dipende dallo scopo dell'analisi. Nel caso della SEO semantica i segmenti rilevanti sono quelli relativi al proprio topic o argomento, al contesto, al settore merceologico di riferimento, ecc.

Nell'analisi lessicometrica, nei sistemi di apprendimento automatico e di interpretazione del testo dell'intelligenza artificiale, invece, sono importanti soprattutto le locuzioni comuni e i modi di dire, perché veicolano un significato completamente differente rispetto a quello letterale.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base
  1. L'analisi automatica del testo
  2. La disambiguazione delle forme grafiche
  3. La riduzione delle parole con iniziale maiuscola
  4. L'analisi lessicometrica
  5. L'analisi lessicale del testo
  6. L'analisi grammaticale
  7. L'analisi dei segmenti
  8. La lessicazione
  9. L'analisi delle specificità
  10. L'indice di significatività del segmento
  11. Le occorrenze
  12. L'ampiezza lessicale
  13. La dimensione del testo
  14. Gli hapax