Noindex o disallow
Per evitare l'indicizzazione di una pagina web sui motori di ricerca si utilizza generalmente il metatag link noindex nella sezione Head del documento.
Gli svantaggi del Noindex
Il noindex ordina al search engine di non inserire la pagina tra i risultati di ricerca o toglierla se già indicizzata.
La tecnica di deindicizzazione basata sul noindex è efficace ma poco efficiente.
Per leggere l'informazione nel metarobots il crawler del search engine deve comunque scaricare il documento per intero, salvarlo e analizzarlo.
Alla fine non lo indicizza ma ha comunque consumato la banda internet del server per leggerlo.
Pertanto, il server del sito web ha sprecato risorse che poteva dedicare alla navigazione degli utenti.
Il tutto comporta indirettamente un rallentamento nella visualizzazione delle pagine.
Inoltre, il passaggio del crawler del search engine su una pagina non indicizzata ritarda quello sulle altre pagine indicizzabili del sito.
Di conseguenza, ci vuole più tempo per indicizzare gli aggiornamenti del sito sul motore di ricerca.
Queste inefficienze possono essere eliminate usando la tecnica di deindicizzazione basata sul disallow.
Come deindicizzare una pagina con il nel robots.txt
Si apre il file robots.txt e si impedisce l'accesso al crawler su una determinata cartella del sito tramite il comando disallow.
Disallow: /cartella/
Lo spider non può accedere a nessun contenuto della directory.
E' quindi sufficiente pubblicare in questa cartella tutti i contenuti da non indicizzare.
Il motore di ricerca non potrà né leggere, né indicizzare le pagine.
Nota. Il disallow impedisce l'accesso soltanto agli spider dei search engine. Gli utenti continuano a navigare sulle pagine.
Con questa tecnica lo spider non consuma le risorse del server, né spreca il crawler budget.
A parità di risultato il disallow è sicuramente più efficiente rispetto al noindex.
Nota. E' comunque consigliabile inserire nei documenti il metatag noindex anche se si utilizza la tecnica disallow, perché alcuni bot non prendono in considerazione le direttive impartite nel robots.txt
Il disallow sulla cartella o sull'articolo?
Il disallow può impedire l'accesso anche a singoli indirizzi URL, ossia a singoli articoli del sito.
Tuttavia, l'elenco degli articoli da deindicizzare potrebbe diventare lungo nel corso del tempo.
Per questo motivo è preferibile lavorare su una cartella.
Attenzione. Il disallow sulla cartella deindicizza tutti gli articoli nella cartella. Prima di usare questa tecnica bisogna accertarsi che non ci siano contenuti indicizzabili nella directory.