Hapax
Gli hapax sono le forme grafiche che compaiono una sola volta in un corpus. Sono le occorrenze del vocabolario (V) con frequenza pari a uno. Nel text mining è un indicatore dell'analisi lessicometrica di un documento. Sono indicate come V1.
Cosa significa hapax?
Deriva dal greco hàpax legòmenon e significa "una sola volta".
Come si calcola la percentuale di hapax?
La percentuale degli hapax si calcola tramite il rapporto tra il numero delle occorrenze che compaiono una sola volta ( V1 ) e il numero delle forme grafiche differenti del testo ( Vocabolario ).
V1 / V
Va specificato che per vocabolario ( V ) non si intende il numero delle parole del testo ma il numero delle parole diverse ( vocaboli ) contenute nel testo, ossia la sua ampiezza lessicale.
La percentuale di hapax è uno degli indicatori principali dell'analisi lessicometrica nel text mining.