Come evitare l'indicizzazione di una pagina o sito web
Perché bloccare l'indicizzazione
Non tutte le informazioni di un sito web devono essere indicizzate dai search engine. Alcune pagine web contengono informazioni riservate per motivi di sicurezza ( es. password, accessi, statistiche ) o di privacy.
Quando il crawler di un motore di ricerca scansiona una risorsa, la indicizza e la rende pubblicamente visibile sui risultati delle ricerche.
Per evitare questo problema è necessario bloccare l'indicizzazione sulle risorse sensibili del sito web.
Come deindicizzare le pagine
Ci sono due strade possibili per deindicizzare o bloccare l'indicizzazione di una pagina del sito, tramite il file Robots.txt oppure tramite l'attributo Noindex nel metatag robots del documento.
- Il file robots.txt ( disallow )
- Il metatag robot ( noindex )
Il file robots.txt
Il file robots è un file di testo, si trova nella cartella principale ( root o radice ) del sito web. Può essere modificato o creato con un editor di testo.
Inserendo il valore disallow nel file robots si può deindicizzare un'intera directory del sito oppure una singola pagina. E' sufficiente fornire l'indirizzo relativo della risorsa dopo il comando Disallow.
User-agent: *
Disallow: /indirizzo_cartella
Disallow: /indirizzo_pagina.html
Nell'esempio precedente il comando disallow viene impartito a tutti gli spider ( User-agent: * ). Tramite il file robots.txt è' anche possibile impartire comandi differenti ai diversi crawler.
Questa strada è particolarmente utile quando si desidera deindicizzare tutti i documenti presenti in una directory oppure l'intero sito.
Nota. Alcuni motori di ricerca non seguono le indicazioni contenute nel file robots.txt dei siti web. Per questo motivo, è consigliabile deindicizzare le risorse anche utilizzando i metatag robots nei singoli documenti Html.
Noindex nel metatag robots
Il metatag robots si trova nella sezione <Head> del documento Html.
Inserendo l'attributo noindex nel metatag robot del documento, si comunica allo spider di non indicizzare la pagina sul search engine.
<html>
<head>
<meta name="robots" content="noindex">
</head>
</html>
Il metatag robots è utile per cancellare dall'indice soltanto alcuni documenti specifici e non tutti.
Quando il bot trova uno di questi segnali, non indicizza il contenuto della pagina web oppure lo deindicizza, ossia lo rimuove dal database del search engine, se era stato già stato indicizzato in precedenza.