Hapax

Gli hapax sono le forme grafiche che compaiono una sola volta in un corpus. Sono le occorrenze del vocabolario (V) con frequenza pari a uno. Nel text mining è un indicatore dell'analisi lessicometrica di un documento. Sono indicate come V1.

Cosa significa hapax?

Deriva dal greco hàpax legòmenon e significa "una sola volta".

Come si calcola la percentuale di hapax?

La percentuale degli hapax si calcola tramite il rapporto tra il numero delle occorrenze che compaiono una sola volta ( V1 ) e il numero delle forme grafiche differenti del testo ( Vocabolario ).

V1 / V

Va specificato che per vocabolario ( V ) non si intende il numero delle parole del testo ma il numero delle parole diverse ( vocaboli ) contenute nel testo, ossia la sua ampiezza lessicale.

La percentuale di hapax è uno degli indicatori principali dell'analisi lessicometrica nel text mining.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base
  1. L'analisi automatica del testo
  2. La disambiguazione delle forme grafiche
  3. La riduzione delle parole con iniziale maiuscola
  4. L'analisi lessicometrica
  5. L'analisi lessicale del testo
  6. L'analisi grammaticale
  7. L'analisi dei segmenti
  8. La lessicazione
  9. L'analisi delle specificità
  10. L'indice di significatività del segmento
  11. Le occorrenze
  12. L'ampiezza lessicale
  13. La dimensione del testo
  14. Gli hapax