Le stop word
Le stop word sono parole comuni di un testo, quelle che non hanno a che vedere con un particolare argomento specifico. Sono anche conosciute come stop words, al plurale, o stopwords.
Un esempio pratico di stop word
Gli articoli, le preposizioni, le congiunzioni o gli aggettivi sono esempi tipici di stop-word. Queste parole le possiamo trovare in qualsiasi testo indipendentemente dall'argomento trattato.
Perché si chiamano stop word?
Sono chiamate stop word perché sono eliminate nei processi di ricerca di un search engine o di un sistema IR.
Perché sono eliminate dai motori di ricerca?
Le stop word consumano molte risorse computazionali ( spazio di memoria, tempo di ricerca ) e non aggiungono alcun valore semantico al testo.
Nota. A volte la presenza delle stop-word porta fuori strada l'algoritmo perché crea collegamenti semantici dove non ci sono.
Per questo motivo i motori di ricerca di vecchia generazione preferivano eliminare le stop word dalle query degli utenti e dal corpus delle pagine web al fine di concentrare la ricerca soltanto sulle parole chiave semantiche.
Così facendo l'algoritmo di ricerca è più veloce e comprende il significato di una frase anche in presenza di errori ortografici.
Tuttavia, l'eliminazione delle stop-word comporta una perdita di informazione. L'algoritmo è più efficiente ma perde in efficacia.
Come eliminare le stop word da un testo
E' sufficiente confrontare ogni parola di un testo con un elenco di stop word. Quando l'algoritmo trova una stop-word in una pagina web la elimina dal testo.
Alla fine dell'elaborazione l'algoritmo salva nel proprio indice il documento senza stop word.
Nota. Prima di eliminare le stop-word è opportuno normalizzare il testo, trasformare tutti i verbi all'infinito e tutte le parole composte in segmenti semantici ( segmentazione ).
Un elenco delle stopword italiane
Un elenco di stop word italiane è il seguente:
a | degl | lui | qua | sui |
ad | degli | lungo | quale | sul |
adesso | dei | ma | quanta | sul |
agl | del | ma | quante | sull |
agli | dell | me | quanti | sulla |
ai | della | meglio | quanto | sulla |
al | delle | mi | quarto | sulle |
all | dello | mia | quasi | sullo |
alla | dentro | mie | quattro | suo |
alle | deve | miei | quella | suoi |
allo | devo | mio | quelle | tanto |
allora | di | molta | quelli | te |
altre | doppio | molti | quello | tempo |
altri | dov | molto | quello | terzo |
altro | dove | ne | questa | ti |
anche | due | negl | queste | tra |
anche | e | negli | questi | tra |
ancora | ecco | nei | questo | tre |
avere | ed | nei | questo | triplo |
aveva | fare | nel | qui | tu |
avevano | fine | nell | quindi | tua |
ben | fino | nella | quinto | tue |
buono | fra | nelle | rispetto | tuo |
che | gente | no | sara | tuoi |
che | giu | noi | se | tutti |
chi | gli | noi | secondo | tutto |
chi | ha | nome | sei | ultimo |
ci | hai | non | sembra | un |
cinque | hanno | nostra | sembrava | un |
coi | ho | nostre | senza | una |
col | il | nostri | sette | una |
come | il | nostro | si | uno |
comprare | in | nostro | sia | uno |
con | indietro | nove | siamo | va |
con | invece | nuovi | siete | vai |
consecutivi | io | nuovo | solo | vi |
consecutivo | io | o | sono | voi |
contro | la | oltre | sopra | voi |
cosa | la | ora | soprattutto | volte |
cui | lavoro | otto | sotto | vostra |
cui | le | peggio | stati | vostre |
da | le | per | stato | vostri |
dagl | lei | perché | stesso | vostro |
dagli | lei | pero | su | vostro |
dai | li | persone | su | |
dal | lo | piu | sua | |
dall | lo | più | subito | |
dalla | loro | poco | sue | |
dalle | loro | primo | sugl | |
dallo | lui | promesso | sugli |
Il rischio della perdita di informazioni rilevanti
L'eliminazione delle stop word non è sempre la scelta computazionale migliore perché alcune stop word hanno un valore semantico che potrebbe perdersi dopo la loro rimozione.
Esempio. Il termine "grande" è un aggettivo e come tale può essere eliminato dalla frase. Tuttavia, se si trova vicino alla parola "fratello" diventa una parola composta "grande fratello" con significato a se stante, diverso da quello dei termini che la compongono. Si tratta di un programma televisivo. Eliminando la parola "grande" non si capirebbe più il senso della frase.
In tali casi la rimozione delle stop word comporta il rischio di perdita dell'informazione rilevante.
Nota. Questo problema si riduce con la segmentazione del testo prima dell'eliminazione delle stop-word. Si tratta di un'operazione di normalizzazione che individua le parole composte nel documento e le unisce in un'unica word ( segmento ).
Le stop word nei motori di ricerca di ultima generazione
Nei motori di ricerca più avanzati le stop word sono elaborate con tecniche euristiche semantiche.
Sono analizzate dopo aver prima circoscritto l'oggetto del discorso per comprendere meglio il significato e il senso di una frase.
Esempio. L'algoritmo elimina le stop-word per individuare l'argomento del documento. Una volta compreso ( es. spettacolo ) l'algoritmo rielabora il documento con le stop-word confrontandolo con un lessico tematico ( "grande fratello" = programma tv ).
Le stop-word vanno utilizzate o eliminate dal lato Seo?
L'uso delle stop-word nelle pratiche di ottimizzazione è cambiato nel corso del tempo. In passato era preferibile eliminarle dalle aree rilevanti di un documento. Oggi non è più così.
La gestione delle stop-word influisce sull'ottimizzazione del documento dal lato della Seo. E' opportuno imparare a gestirle con correttezza e naturalezza.