L'analisi delle contingenze del contenuto

Il contenuto di un testo può essere elaborato in modo scientifico, utilizzando i metodi e gli strumenti messi a disposizione dalla matematica e dalla statistica.

Uno dei primi tentativi di semantica quantitativa fu l'analisi del contenuto tradizionale di Harold Lasswell, il cui studio fu pubblicato nel 1949.

Come abbiamo già visto, questa tecnica aveva molti limiti. Si limita a contare le occorrenze dei termini nel testo. Il significato della parola con la frequenza assoluta più elevata determina il senso generale del discorso.

Tutto funzionerebbe se non ci fosse un problema, in genere le parole hanno diversi significati. Come fare a scegliere quello giusto?

Il singolo termine non ci permette di saperlo, per scoprirlo dobbiamo analizzare l'intera frase in cui si trova la parola, ossia le altre parole o co-occorrenze.

Cosa sono le co-occorrenze?

Le co-occorrenze sono le altre parole che accompagnano un termine in un testo. Sono conosciute anche con il nome di contingenze o di concomitanze.

Quando si parla di una particolare accezione del termine, alcune parole si presentano nel discorso con una frequenza maggiore rispetto alle altre.

Ad esempio, se parliamo di "pesca" come attività ittica, capita spesso di trovare delle parole concomitanti come "pesce", "rete", "pescatori", ecc.

un esempio di frasi in cui la parola pesca viene usata con significato diverso

Viceversa, se per "pesca" intendiamo l'estrazione di beneficenza, nel nostro discorso compaiono altre parole concomitanti come "estrazione", "palio", "biglietto", ecc.

Le parole concomitanti co-occorrono frequentemente nei discorsi a seconda del contesto, insieme al termine di riferimento ( pesca ) e per questo sono dette co-occorrenze.

Analizzando le co-occorrenze possiamo capire il significato della parola ( pesca ) nella frase ed eliminiamo tutte le altre accezioni.

Uno dei primi modelli di analisi delle co-occorrenze venne costruito da Charles Osgood nel 1959.

Come funziona l'analisi delle co-occorrenze

L'obiettivo dell'analisi è individuare le associazioni semantiche tra i termini. Se un termine ha diverse accezioni ( es. pesca ), a seconda del significato che gli si vuole dare sarà accompagnato più frequentemente da alcune parole concomitanti piuttosto che altre.

La co-occurrence analysis di Osgood si pone questo obiettivo. Il ricercatore individua N documenti dove è presente il termine da analizzare, ad esempio "pesca".

la selezione delle parole piene del testo per ridurre il numero dei termini significativi da analizzare

Elimina da ogni documento le parole vuote ( articoli, preposizioni, ecc. ) per ridurre il numero dei termini alle sole parole piene, quelle che hanno almeno un significato proprio.

Il ricercatore cerca anche di raggrupparle i termini per non presentare due volte lo stesso termine al maschile o al femminile, al singolare o al plurale. I predicati verbali sono trasformati all'infinito.

il raggruppamento dei termini per significato

Ad esempio, è inutile inserire tre colonne distinte per i termini "sportivo", "sportiva", "sportivi", è preferibile raggrupparli in una sola.

A questo punto, il ricercatore costruisce la tabella delle occorrenze mettendo in colonna tutte le parole individuate nei documenti, evitando le duplicazioni.

Ad esempio, se la parola "sportiva" compare cinque volte in tre documenti, viene comunque associata a una sola colonna nella tabella.

un esempio di tabella delle co-occorrenze

Il passo successivo consiste nel mettere al vaglio tutte le frasi o le proposizioni dei documenti, inserendole nelle righe della tabella. Ogni riga della tabella è associata a una proposizione.

Per ciascuna proposizione ( riga ) il ricercatore verifica quali termini in colonna sono presenti. Quando un termine compare in una proposizione, il ricercatore inserisce il numero uno (1) nella relativa cella della tabella, quella individuata dall'incrocio tra la colonna I del termine e la riga J della proposizione.

Viceversa, quando il termine (colonna) non è presente nella proposizione (riga), viene inserito il numero zero (0) nella cella. Questo processo si chiama operativizzazione.

L'operativizzazione permette di trasformare le frasi in vettori composti da sequenze di zero e uno. I vettori sono molto più facili da confrontare rispetto alla forma letterale delle frasi.

la matrice quadrata delle co-occorrenze e il conteggio delle associazioni semantiche

Una volta completata l'operativizzazione. Il ricercatore costruisce una matrice quadrata ponendo nelle colonne e nelle righe i termini. Nelle celle è, invece, indicato il numero dei documenti in cui compare la combinazione dei termini.

In questo modo, il ricercatore ha ottenuto una tabella delle associazioni semantiche. Questa tabella ci permette di ottenere dei cluster, ossia dei gruppi di termini, in cui il termine oggetto di studio ( "pesca" ) ha un significato piuttosto che un altro.

nella matrice quadrata emergono due cluster e ognuno indica un significato diverso della parola "pesca"

Nell'esempio precedente le associazioni semantiche si concentrano in due cluster ( raggruppamenti ), ognuno dei quali mostra un significato diverso della parola "pesca". Nel primo cluster blu le co-occorrenze indicano l'atto di catturare il pesce. Nel secondo cluster rosso, invece, mostrano l'atto di estrarre dei numeri.

In conclusione

L'analisi delle contingenze ha permesso di separare il doppio significato di una parola nei documenti. L'esempio in questa pagina è molto semplice e le colonne sono state ordinate per favorire la comprensione.

Nelle analisi più complesse, per trovare il cluster è necessario utilizzare le tecniche statistiche per ridurre l'iperspazio ( spazio a n dimensioni ) in uno spazio a due o tre dimensioni. Una di queste è l'analisi delle corrispondenze lessicali e la distanza del chi-quadrato.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base