Analisi lessicale del testo
L'analisi lessicale è un processo di elaborazione e analisi automatica del testo. E' utilizzato nei motori di ricerca sul web e sulle basi dati in cui le informazioni sono registrate sotto forma di testi, senza uno schema organizzativo.
Cos'è il lessico?
Il lessico è l'insieme dei vocaboli e delle locuzioni di una lingua oppure una parte di essa. In un documento o in un discorso, il lessico è composto dai termini diversi utilizzati dall'autore.
Come funziona l'analisi lessicale
Il testo viene sottoposto a una scansione per trovare le parole chiave ( keyword ) o comunque i termini principali del discorso. Questa operazione avviene tramite un algoritmo detto analizzatore lessicale.
Il testo viene suddiviso in frasi e parole prendendo come riferimento dei caratteri separatori, in genere lo spazio blank e i segni di punteggiatura ( virgola, punto, due punti, punto e virgola, punto esclamativo e interrogativo, ecc. ).
Una volta ottenuto l'insieme dei termini ( word ) del testo, si analizzano uno alla volta per capire se si tratta di un termine rilevante oppure meno.
Si possono incontrare due tipi di parole nel testo: le parole comuni e le parole specifiche
Le parole comuni ( stop word )
Le parole comuni sono quelle utilizzate per dare forma grammaticale alle frasi. Hanno la caratteristica d'essere presenti un po' in tutti i documenti e sono quelle che ricorrono con maggiore frequenza. Per questo motivo sono poco importanti. Sono anche conosciute come stop-word ( o stopword ).
Perché si chiamano stop word? Si chiamano così perché sono le parole che il search engine non prende in considerazione, perché non veicolano un'informazione utile o specifica.
L'insieme delle stop-word è detto stop-list. Ogni lingua ha una stop-list diversa dalle altre.
Le stop-word variano a seconda della lingua. In italiano sono stop word tutti gli articoli ( il, lo, la, il, gli, le, uno, una ), le preposizioni ( di, a, da, in, con, su, per, tra, fra ), alcuni verbi, avverbi, aggettivi, ecc. In lingua inglese ci sono stop word differenti.
Volendo generalizzare, le stop word sono tutte quelle parole che compaiono con elevata frequenza nell'archivio, in tutti o quasi tutti i documenti.
In genere, nei search engine sul web le stop-list sono l'insieme generico di parole comuni del vocabolario. Nelle basi di conoscenza, invece, i sistemi IRS usano delle stop-list specifiche per l'argomento.
Le parole specifiche ( key-word )
Le parole specifiche sono le chiavi del discorso. Hanno una frequenza minore perché sono utilizzate soltanto in particolari argomenti e, quindi, compaiono in una minore quantità di documenti.
Essendo più specifiche, veicolano un'informazione utile per il processo di searching. In un processo di Information Retrieval sono usate come descrittori, ossia come parole chiave ( key-word o keyword ).
L'eliminazione delle stop-word dal testo
Nel processo di indicizzazione dei documenti è razionale prendere in considerazione soltanto le parole chiave e rimuovere le stop word dal testo.
Ciò che resta dopo la rimozione delle stop-word è un insieme di parole che potenzialmente potrebbero essere descrittori o parole chiave.
Nota. Il testo senza le stop-word è composto soltanto da 10 parole, circa la metà rispetto al testo di origine ( 19 termini ). Nonostante sia più piccolo, il testo senza stop-word consente comunque di comprendere l'argomento e il tema del discorso.
L'eliminazione delle stop word dal testo dei documenti e dalle query consente di aumentare l'efficienza computazionale del search engine.
Non sempre conviene eliminare le stop-word
La rimozione delle stop-word dal testo può causare una perdita di informazioni rilevanti. Le stop-word sono utili soltanto quando compongono una parola composta avente un significato specifico.
Esempio. La query (A) "Il ribelle" denota l'intenzione dell'utente di cercare un film con questo titolo. L'articolo "IL" non viene considerato una stop word ma è parte integrante di una parola comune. Viceversa, la query (B) "ribelle il" non ha alcun significato specifico, quindi il search engine potrebbe eliminare la stop word e restituire soltanto i risultati legati al termine meno comune.
In conclusione, a volte conviene eliminare le stop-word, altre volte è preferibile mantenerle nel corpus del testo. E' necessario valutare caso per caso.
L'analisi dei segmenti lessicali. Una possibile soluzione del problema è la lessicazione dei segmenti del testo come controllo ex-ante prima dell'eliminazione delle stop-word. Si analizzano tutte le sequenze di parole del testo a gruppi di due o tre ( segmenti ) e si verifica se hanno un significato proprio nel vocabolario della lingua ( es. pannelli+solari = pannelli solari ).
Quando due termini hanno un significato proprio, possono essere uniti tra loro con un carattere separatore specifico che permette di considerarle nel testo come un un'unica parola composta ( es. il simbolo underscore _ ) .
Stemming. Un testo senza stop-word può essere ulteriormente normalizzato tramite un algoritmo di stemming che riduce le parole alla loro forma flessa ( radice ). Si riduce così il numero delle varianti nel documento.