Le stop word

Le stop word sono parole comuni di un testo, quelle che non hanno a che vedere con un particolare argomento specifico. Sono anche conosciute come stop words, al plurale, o stopwords.

Un esempio pratico di stop word

Gli articoli, le preposizioni, le congiunzioni o gli aggettivi sono esempi tipici di stop-word. Queste parole le possiamo trovare in qualsiasi testo indipendentemente dall'argomento trattato.

un esempio di stop words

Perché si chiamano stop word?

Sono chiamate stop word perché sono eliminate nei processi di ricerca di un search engine o di un sistema IR.

Perché sono eliminate dai motori di ricerca?

Le stop word consumano molte risorse computazionali ( spazio di memoria, tempo di ricerca ) e non aggiungono alcun valore semantico al testo.

Nota. A volte la presenza delle stop-word porta fuori strada l'algoritmo perché crea collegamenti semantici dove non ci sono.

Per questo motivo i motori di ricerca di vecchia generazione preferivano eliminare le stop word dalle query degli utenti e dal corpus delle pagine web al fine di concentrare la ricerca soltanto sulle parole chiave semantiche.

Così facendo l'algoritmo di ricerca è più veloce e comprende il significato di una frase anche in presenza di errori ortografici.

esempio di gestione degli errori ortografici tramite l'eliminazione delle stop words

Tuttavia, l'eliminazione delle stop-word comporta una perdita di informazione. L'algoritmo è più efficiente ma perde in efficacia.

Come eliminare le stop word da un testo

E' sufficiente confrontare ogni parola di un testo con un elenco di stop word. Quando l'algoritmo trova una stop-word in una pagina web la elimina dal testo.

Alla fine dell'elaborazione l'algoritmo salva nel proprio indice il documento senza stop word.

Nota. Prima di eliminare le stop-word è opportuno normalizzare il testo, trasformare tutti i verbi all'infinito e tutte le parole composte in segmenti semantici ( segmentazione ).

Un elenco delle stopword italiane

Un elenco di stop word italiane è il seguente:

a degl lui qua sui
ad degli lungo quale sul
adesso dei ma quanta sul
agl del ma quante sull
agli dell me quanti sulla
ai della meglio quanto sulla
al delle mi quarto sulle
all dello mia quasi sullo
alla dentro mie quattro suo
alle deve miei quella suoi
allo devo mio quelle tanto
allora di molta quelli te
altre doppio molti quello tempo
altri dov molto quello terzo
altro dove ne questa ti
anche due negl queste tra
anche e negli questi tra
ancora ecco nei questo tre
avere ed nei questo triplo
aveva fare nel qui tu
avevano fine nell quindi tua
ben fino nella quinto tue
buono fra nelle rispetto tuo
che gente no sara tuoi
che giu noi se tutti
chi gli noi secondo tutto
chi ha nome sei ultimo
ci hai non sembra un
cinque hanno nostra sembrava un
coi ho nostre senza una
col il nostri sette una
come il nostro si uno
comprare in nostro sia uno
con indietro nove siamo va
con invece nuovi siete vai
consecutivi io nuovo solo vi
consecutivo io o sono voi
contro la oltre sopra voi
cosa la ora soprattutto volte
cui lavoro otto sotto vostra
cui le peggio stati vostre
da le per stato vostri
dagl lei perché stesso vostro
dagli lei pero su vostro
dai li persone su
dal lo piu sua
dall lo più subito
dalla loro poco sue
dalle loro primo sugl
dallo lui promesso sugli

Il rischio della perdita di informazioni rilevanti

L'eliminazione delle stop word non è sempre la scelta computazionale migliore perché alcune stop word hanno un valore semantico che potrebbe perdersi dopo la loro rimozione.

Esempio. Il termine "grande" è un aggettivo e come tale può essere eliminato dalla frase. Tuttavia, se si trova vicino alla parola "fratello" diventa una parola composta "grande fratello" con significato a se stante, diverso da quello dei termini che la compongono. Si tratta di un programma televisivo. Eliminando la parola "grande" non si capirebbe più il senso della frase.
il rischio della perdita delle informazioni rilevanti

In tali casi la rimozione delle stop word comporta il rischio di perdita dell'informazione rilevante.

Nota. Questo problema si riduce con la segmentazione del testo prima dell'eliminazione delle stop-word. Si tratta di un'operazione di normalizzazione che individua le parole composte nel documento e le unisce in un'unica word ( segmento ).

Le stop word nei motori di ricerca di ultima generazione

Nei motori di ricerca più avanzati le stop word sono elaborate con tecniche euristiche semantiche.

Sono analizzate dopo aver prima circoscritto l'oggetto del discorso per comprendere meglio il significato e il senso di una frase.

Esempio. L'algoritmo elimina le stop-word per individuare l'argomento del documento. Una volta compreso ( es. spettacolo ) l'algoritmo rielabora il documento con le stop-word confrontandolo con un lessico tematico ( "grande fratello" = programma tv ).

Le stop-word vanno utilizzate o eliminate dal lato Seo?

L'uso delle stop-word nelle pratiche di ottimizzazione è cambiato nel corso del tempo. In passato era preferibile eliminarle dalle aree rilevanti di un documento. Oggi non è più così.

La gestione delle stop-word influisce sull'ottimizzazione del documento dal lato della Seo. E' opportuno imparare a gestirle con correttezza e naturalezza.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Libri di approfondimento