Le occorrenze

Cosa sono le occorrenze?

Le occorrenze sono la frequenza assoluta di un termine in un corpus, il numero di volte che una parola compare all'interno del testo di un paragrafo, di un documento o di un libro.

Il termine deriva dall'inglese occurrence. E' utilizzato in varie discipline statistiche e nella linguistica, per indicare il numero di volte che uno stesso elemento ( es. parola ) ricorre nell'insieme.

Più di recente le occorrenze sono entrate a far parte della terminologia tecnica del text mining e della seo semantica.

Un esempio pratico

Ad esempio, se associamo una lettera a ogni vocabolo di una frase, possiamo notare come alcune parole sono ripetute, si presentano con frequenza maggiore.

esempio di occorrenze

I termini "libro" (B) e "di" (C) compaiono due volte nel corpus della frase, quindi hanno due occorrenze ciascuno. Gli altri termini, invece, appaiono una sola volta ( 1 occorrenza ).

La dimensione del testo

Sommando tutte le frequenze assolute ( occorrenze ) dei termini della frase otteniamo la dimensione del testo, ossia il numero delle parole che compongono la frase. In questo caso sono dieci.

il numero delle occorrenze e delle forme grafiche

La dimensione del corpus del testo ( N ) è uguale alla somma delle frequenze comprese tra uno ( hapax ) e la frequenza massima ( Fmax ).

la formula della dimensione del testo

Nell'esempio precedente sono presenti due classi V1=6 e V2=2. Pertanto, la dimensione del testo (N) è pari a (6x1)+(2x2)=6+4=10. La dimensione del testo è uguale a 10.

Nota. Per V1 si intende il numero di occorrenze che hanno una frequenza pari a uno. Sono vocaboli che si presentano una sola volta nel testo, detti anche hapax. Per V2 si intende il numero di occorrenze che hanno una frequenza pari a due. Nell'esempio precedente la frequenza massima (Fmax) è pari a due.

L'ampiezza del testo

Contando soltanto le forme grafiche del documento, invece, possiamo calcolare l'ampiezza del vocabolario o lessico, ossia il numero delle parole differenti usate nel testo ( word types ).

la formula dell'ampiezza del testo

Nell'esempio precedente sono presenti due classi V1=6 e V2=2. Pertanto, l'ampiezza del vocabolario del testo (V) è pari a 6+2=8. L'ampiezza del testo è uguale a 8.

L'analisi lessicometrica

Questi due dati, la dimensione e l'ampiezza, sono le grandezze fondamentali per l'analisi lessicometrica del corpus del testo.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base
  1. L'analisi automatica del testo
  2. La disambiguazione delle forme grafiche
  3. La riduzione delle parole con iniziale maiuscola
  4. L'analisi lessicometrica
  5. L'analisi lessicale del testo
  6. L'analisi grammaticale
  7. L'analisi dei segmenti
  8. La lessicazione
  9. L'analisi delle specificità
  10. L'indice di significatività del segmento
  11. Le occorrenze
  12. L'ampiezza lessicale
  13. La dimensione del testo
  14. Gli hapax