Dimensione del testo
La dimensione del testo è il numero delle parole ( word count ) all'interno di un documento. E' il numero complessivo delle occorrenze del corpus, considerando nel calcolo anche le stesse parole ripetute più volte dentro il testo.
Un esempio pratico
Ad esempio, associando una lettera a ciascun vocabolo della seguente frase, osserviamo che alcuni vocaboli si ripetono mentre altri non si ripetono ( hapax ).
Nella frase sono presenti due classi di frequenze. La classe di frequenza pari a uno ( V1 ) dei termini che compaiono una sola volta nella frase e la classe di frequenza massima pari a due ( V2 ) delle parole che compaiono due volte nella frase.
Sommando il prodotto della frequenza per il numero di parole dentro la classe otteniamo il numero complessivo delle parole nella frase, ossia la dimensione del testo ( occorrenze ).
La formula della dimensione del testo è la seguente:
Nell'esempio precedente sono presenti dieci termini in tutti, considerando anche le parole ripetute ( occorrenze ). Essendo V1=6 e V2=2, sostituiamo questi valori nella formula e otteniamo V1x1+V2x2 ossia 6x1+2x2 = 6+4. La dimensione del testo nella frase è dieci.
La grandezza della dimensione del testo
Nell'analisi del testo ( text mining ) un corpus con 10mila occorrenze è considerato di piccole dimensioni. I testi con più di 100mila occorrenze sono, invece, considerati di grandi dimensioni.
La dimensione del testo ( N ) è uno degli indicatori principali dell'analisi lessicometrica.