Le occorrenze
Cosa sono le occorrenze?
Le occorrenze sono la frequenza assoluta di un termine in un corpus, il numero di volte che una parola compare all'interno del testo di un paragrafo, di un documento o di un libro.
Il termine deriva dall'inglese occurrence. E' utilizzato in varie discipline statistiche e nella linguistica, per indicare il numero di volte che uno stesso elemento ( es. parola ) ricorre nell'insieme.
Più di recente le occorrenze sono entrate a far parte della terminologia tecnica del text mining e della seo semantica.
Un esempio pratico
Ad esempio, se associamo una lettera a ogni vocabolo di una frase, possiamo notare come alcune parole sono ripetute, si presentano con frequenza maggiore.
I termini "libro" (B) e "di" (C) compaiono due volte nel corpus della frase, quindi hanno due occorrenze ciascuno. Gli altri termini, invece, appaiono una sola volta ( 1 occorrenza ).
La dimensione del testo
Sommando tutte le frequenze assolute ( occorrenze ) dei termini della frase otteniamo la dimensione del testo, ossia il numero delle parole che compongono la frase. In questo caso sono dieci.
La dimensione del corpus del testo ( N ) è uguale alla somma delle frequenze comprese tra uno ( hapax ) e la frequenza massima ( Fmax ).
Nell'esempio precedente sono presenti due classi V1=6 e V2=2. Pertanto, la dimensione del testo (N) è pari a (6x1)+(2x2)=6+4=10. La dimensione del testo è uguale a 10.
Nota. Per V1 si intende il numero di occorrenze che hanno una frequenza pari a uno. Sono vocaboli che si presentano una sola volta nel testo, detti anche hapax. Per V2 si intende il numero di occorrenze che hanno una frequenza pari a due. Nell'esempio precedente la frequenza massima (Fmax) è pari a due.
L'ampiezza del testo
Contando soltanto le forme grafiche del documento, invece, possiamo calcolare l'ampiezza del vocabolario o lessico, ossia il numero delle parole differenti usate nel testo ( word types ).
Nell'esempio precedente sono presenti due classi V1=6 e V2=2. Pertanto, l'ampiezza del vocabolario del testo (V) è pari a 6+2=8. L'ampiezza del testo è uguale a 8.
L'analisi lessicometrica
Questi due dati, la dimensione e l'ampiezza, sono le grandezze fondamentali per l'analisi lessicometrica del corpus del testo.