Power law

Il Power law è un modello statistico usato per misurare l'esaustività e la specificità dell'indicizzazione in un sistema IR ( Information Retrieval ).

Un corpus di testo è composto da N occorrenze e ogni parola è presente nel documento una o più volte. E' quindi possibile associare a ciascuna forma grafica ( parola ) la relativa frequenza nel documento. Si ottiene così il vocabolario V del corpus. Sono i concetti più semplici di un'analisi lessicometrica.

l'analisi delle occorrenze di un testo

Nella lista le parole sono ordinate per frequenza relativa, a partire da quella che compare di più nel testo fino a quelle che si presentano una volta sola.

Osservando la rappresentazione grafica della lista ordinata delle parole su più documenti, ci si accorge subito che presentano tutti una particolare distribuzione empirica delle parole in relazione alla loro frequenza. Questa distribuzione è detta power law ( o legge della potenza ).

esempio di distribuzione di frequenze relative delle parole di un testo nella power law

Le parole più usate nei documenti sono quelle meno importanti. Spesso si tratta di stop word.

Esempio. Gli articoli, le preposizioni, le congiunzioni, i pronomi, gli aggettivi, ecc. sono presenti in quasi tutti i documenti e ricorrono molte volte dentro un singolo testo.

Le parole che si presentano poche volte, invece, veicolano le informazioni più rilevanti del documento e apportano una quantità superiore di informazioni.

Generalmente l'autore di un testo combina le parole in base al principio del minimo sforzo. Chi scrive, tende a ridurre al minimo l'uso dei termini per comunicare l'informazione in modo più efficace possibile, nel minore tempo e con la minore quantità di vocaboli.

Nota. Questa euristica è particolarmente evidente nelle comunicazioni via tweet su Twitter o via SMS dove, per motivi differenti, l'autore del messaggio è spinto a ridurre al minimo l'uso delle parole e l'uso delle lettere all'interno delle parole. Ad esempio, in molti new media la parola "perché" viene sintetizzata in "xche", la preposizione "per" si trasforma in "x", e così via. Tutto ciò consente a chi comunica di ridurre il numero delle lettere per scrivere la parola, ossia la medesima informazione.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base
  1. Information Retrieval ( IR )
  2. I descrittori
  3. Stemming