Dimensione del testo

La dimensione del testo è il numero delle parole ( word count ) all'interno di un documento. E' il numero complessivo delle occorrenze del corpus, considerando nel calcolo anche le stesse parole ripetute più volte dentro il testo.

Un esempio pratico

Ad esempio, associando una lettera a ciascun vocabolo della seguente frase, osserviamo che alcuni vocaboli si ripetono mentre altri non si ripetono ( hapax ).

esempio di occorrenze

Nella frase sono presenti due classi di frequenze. La classe di frequenza pari a uno ( V1 ) dei termini che compaiono una sola volta nella frase e la classe di frequenza massima pari a due ( V2 ) delle parole che compaiono due volte nella frase.

il numero delle occorrenze e delle forme grafiche


Sommando il prodotto della frequenza per il numero di parole dentro la classe otteniamo il numero complessivo delle parole nella frase, ossia la dimensione del testo ( occorrenze ).

La formula della dimensione del testo è la seguente:

la formula della dimensione del testo

Nell'esempio precedente sono presenti dieci termini in tutti, considerando anche le parole ripetute ( occorrenze ). Essendo V1=6 e V2=2, sostituiamo questi valori nella formula e otteniamo V1x1+V2x2 ossia 6x1+2x2 = 6+4. La dimensione del testo nella frase è dieci.

La grandezza della dimensione del testo

Nell'analisi del testo ( text mining ) un corpus con 10mila occorrenze è considerato di piccole dimensioni. I testi con più di 100mila occorrenze sono, invece, considerati di grandi dimensioni.

La dimensione del testo ( N ) è uno degli indicatori principali dell'analisi lessicometrica.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base
  1. L'analisi automatica del testo
  2. La disambiguazione delle forme grafiche
  3. La riduzione delle parole con iniziale maiuscola
  4. L'analisi lessicometrica
  5. L'analisi lessicale del testo
  6. L'analisi grammaticale
  7. L'analisi dei segmenti
  8. La lessicazione
  9. L'analisi delle specificità
  10. L'indice di significatività del segmento
  11. Le occorrenze
  12. L'ampiezza lessicale
  13. La dimensione del testo
  14. Gli hapax