Il lessico di frequenza

Il lessico di frequenza è il lessico peculiare del corpus. Si tratta di un'operazione statistica finalizzata a individuare una misura della significatività all'interno del testo.

Come si calcola

Dati due vocabolari di lessico, questi vengono confrontati attraverso il calcolo degli scarti standardizzati delle frequenze relative delle occorrenze al loro interno.

La frequenza di ciascun termine Fi viene confrontata con la frequenza attesa del termine F*i nel vocabolario di riferimento. Lo scarto standardizzato Si consente di calcolare un indice di vicinanza ( rappresentatività ) di ciascuna forma grafica del testo.

La formula del lessico di frequenza è la seguente:

la formula del lessico di frequenza

Quanto più lo scarto standardizzato è alto, tanto più la forma grafica in questione è peculiare nel corpus ( peculiarità del termine ). In genere, le parole peculiari sono considerate delle parole chiave ( keyword ) all'interno del testo.

Un esempio pratico

Ad esempio, selezionando un corpus di articoli che contengono la parola ottimizzazione, si analizzano gli scarti per ogni forma grammaticale nei confronti del vocabolario del linguaggio comune.

Al termine dell'analisi emergono le seguenti occorrenze con uno scarto maggiore: seo, motori di ricerca, Google.

Queste ultime sono i termini chiave accomunate dalla presenza del termine “ottimizzazione” all'interno dello stesso testo.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base
  1. L'analisi automatica del testo
  2. La disambiguazione delle forme grafiche
  3. La riduzione delle parole con iniziale maiuscola
  4. L'analisi lessicometrica
  5. L'analisi lessicale del testo
  6. L'analisi grammaticale
  7. L'analisi dei segmenti
  8. La lessicazione
  9. L'analisi delle specificità
  10. L'indice di significatività del segmento
  11. Le occorrenze
  12. L'ampiezza lessicale
  13. La dimensione del testo
  14. Gli hapax