Analisi del contenuto tradizionale

Il tentativo di comprendere il significato del testo non nasce con i motori di ricerca semantici. I primi metodi risalgono agli inizi del Novecento con la diffusione dei mass media. Uno dei primi strumenti è l'analisi del contenuto tradizionale.

Cos'è l'analisi del contenuto tradizionale?

Questo approccio risale agli anni '30 del Novecento, è uno dei primi esperimenti di comprensione dei documenti tramite tecniche statistiche. Nell'analisi del contenuto tradizionale il contenuto di un testo viene trasformato in unità elementari, come le parole, le locuzioni, i simboli, le proposizioni e le tematiche ( topic ).

Le unità elementari sono poi studiate con gli strumenti quantitativi delle scienze. Ad esempio, vengono estrapolate le parole che si presentano con maggiore frequenza nel documento e da queste si cerca di risalire all'argomento o al significato del discorso.

L'analisi si concentra sulle quantità e sulle frequenze di comparizione dei termini in un documento. Per questa ragione l'analisi era conosciuta anche come semantica quantitativa ( quantitative semantic ).

Come funziona l'analisi quantitativa del testo?

L'analisi del contenuto tradizionale può essere vista come un processo con in input un testo e in un output una tematica oppure un significato.

il processo della comprensione del testo nella semantica quantitativa: il corpo del testo entra in input e il processo elabora in output il suo significato

Per comprendere il funzionamento del metodo è utile fare un esempio pratico. Il punto di partenza dell'analisi è sempre il testo di un documento ( corpo ).

Prendi un documento qualsiasi, come puoi notare il testo è composto da una sequenza di simboli grafici, di combinazioni di parole, di proposizioni e frasi. Come decodificare il significato nascosto dentro un componimento?

un esempio di documento - il testo è detto corpo

Come prima cosa occorre scorporare l'elaborato in utilità più elementari. Ad esempio, puoi elencare tutte le parole contenute nel documento. Per ciascuna parola conta il numero di volte che viene ripetuta nel documento, la sua frequenza assoluta.

la frequenza assoluta delle parole contenute nel corpo del testo

Queste ripetizioni sono dette occorrenze. Ora, puoi subito notare che alcuni termini sono più ripetuti di altri. Ad esempio, i termini "la", "pesca", "sono" e "sportive" sono presenti quattro volte nel documento. Se concentri l'attenzione su queste occorrenze puoi risalire al senso generale del discorso.

Tuttavia, non tutti i termini sono però importanti anche se replicati molte volte. Soltanto una parte delle parole sono associate a un significato, o a una categoria. Questi termini sono detti parole piene. Ad esempio, il termine "pesca" è associato all'atto di catturare il pesce. Il termine "sportive" è un aggettivo e denota l'appartenenza allo sport, mentre "sono" è la coniugazione del verbo essere.

alcuni esempi di parole piene, associate a una categoria o aventi un significato preciso

Viceversa, altre parole non hanno un significato proprio, sono parole comuni, articoli, congiunzioni, preposizioni, ecc. Queste parole sono dette parole vuote e possono essere eliminate dall'analisi. Ad esempio, il termine "la" è un articolo determinativo femminile.

Le parole vuote sono anche dette stop word poiché, in alcuni casi, i motori di ricerca evitano di analizzare questi termini, per concentrare l'attenzione soltanto sulle parole chiave con un significato ben preciso.

le parole vuote non hanno accezioni e possono essere eliminate dal testo

L'eliminazione delle parole vuote riduce la quantità preliminare dei termini da elaborare in input e il grado della complessità computazionale dell'elaborazione, sia spaziale che temporale. L'algoritmo svolge il suo lavoro più rapidamente, occupando una minore quota dello spazio di memoria.

A questo punto, se concentri l'attenzione soltanto sulle tre parole piene più frequenti ( pesca, sportiva, sono ), puoi notare che i primi due termini ( pesca+sportiva ) delimitano i confini dell'argomento principale del testo con una certa efficacia. Il terzo termine ( sono ) ha, invece, un significato comune a molte tematiche e può essere trascurato.

il risultato dell'analisi è il significato generale del testo

L'analisi delle occorrenze delle parole piene ha consentito di trovare il significato del testo. Si tratta di un esempio molto semplice per spiegare il funzionamento del metodo. Oltre alle frequenze assolute si potrebbero aggiungere le frequenze relative e le percentuali delle occorrenze, ma il modus operandi resterebbe lo stesso.

In conclusione

L'analisi del contenuto tradizionale concentra l'interesse soltanto sulle quantità di ripetizioni ( occorrenze ) delle parole che possiedono un significato preciso ( parole piene ) e da queste derivano il significato generale del testo.

Questa caratteristica è anche il principale , poiché in un vocabolario le parole hanno molteplici significati. Non è sempre possibile associare ogni parola a una sola categoria.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

Altri articoli sull'argomento

FacebookTwitterLinkedinLinkedin
knowledge base