Il file Robots Txt

Il Robotx Txt è un file del sito web per orientare il motore di ricerca nella scansione delle pagine del sito.

A cosa serve il file robots.txt

E' utilizzato per indicare al search engine quali pagine o cartelle del sito sono indicizzabili e quali, invece, non devono essere indicizzate.

E' un mezzo per influenzare l'indicizzazione e per bloccare l'indicizzazione sulle cartelle riservate del sito web da parte del motore di ricerca.

le cartelle da scansionare e da indicizzare e quelle su cui la scansione è bloccata

Il file robots.txt è uno degli strumenti per tutelare la riservatezza delle informazioni contenute in alcune cartelle del sito ( es. dati sensibili, privacy, log di accesso, password, statistiche del sito, bozze, contenuti duplicati, tag o categorie, ecc. ).

Esempio. Quando una directory del sito contiene dati riservati è necessario dire al motore di ricerca di non indicizzarla, in caso contrario il suo contenuto potrebbe diventare visibile a tutti sui risultati di ricerca.

Dove si trova il file

Il file robots.txt è situato nella cartella principale ( root ) del sito web, quella dove generalmente si trova anche il documento della home page del sito.

dove si trova il file robots.txt

Si tratta di un semplice file di testo con estensione .TXT. Può essere editato con un software qualsiasi di editazione del testo e trasferito sulla root del sito tramite FTP.

esempio di editor di testo per modificare il file robotx.txt

Nota. E' preferibile utilizzare un text editor molto semplice come, ad esempio, il Blocco Note ( Notepad ) su Microsoft Windows. I software di word processo spesso inseriscono del codice aggiuntivo che potrebbe dare fastidio.

Come scrivere il file robots.txt

Nel file possono essere inserite le istruzioni da passare al search engine.

Le principali istruzioni nel file robotx.txt sono le seguenti:

  1. User-Agent
  2. Disallow

User-Agent

E' l'istruzione in cui indichiamo il nome dello spider a cui vogliamo impartire l'istruzione. Deve essere sempre scritta prima delle altre.

Per impartirlo a tutti gli spider possiamo scrivere il simbolo dell'asterisco.

User-agent: *

Per passare l'istruzione soltanto allo spider del motore di ricerca Google dobbiamo scrivere nel seguente modo:

User-agent: googlebot

Il crawler del search engine di Mountain View si chiama "googlebot".

Elenco completo dei nomi dei bot. Ogni motore di ricerca ha un nome specifico per il suo agente bot. Una lista completa può essere reperita su questo sito: http://www.robotstxt.org/db.html
elenco degli agenti bot

Disallow

Questa istruzione inibisce l'accesso agli spider sulle cartelle e/o sui file riservati del sito.

Ad esempio, per proibire la scansione e l'indicizzazione della cartella con nome /cartella/ e del file /cartella/log.txt possiamo scrivere nel seguente modo:

Disallow: /cartella/
Disallow: /cartella/log.txt

La prima istruzione ( Disallow: /cartella/ ) vieta l'accesso allo spider a tutto il contenuto della directory /cartella/, sia ai file che alle sottodirectory della stessa.

La seconda istruzione ( Disallow: /cartella/log.txt ) vieta la scansione soltanto sul file log.txt nella directory /cartella. In questo caso, la scansione è consentita su tutti gli altri file nella stessa cartella poiché è vietata soltanto sul file indicato.

Esempio pratico

Nel seguente riquadro viene mostrato un esempio di file robots.txt che inibisce allo spider di Google ( googlebot ) l'accesso alla cartella /log mentre lo consente ( * ) a tutti gli atri:

User-agent: googlebot
Disallow: /log/
User-agent: *
Disallow:

L'ordine della sequenza di istruzioni

Il file robots.txt è una procedura interpretata dal crawler e i comandi sono eseguiti in sequenza così come sono scritti, dall'alto verso il basso. Pertanto, è molto importante l'ordine di presentazione delle istruzioni.
l'ordine dei comandi nel file robots.txt

Nota. Cambiando l'ordine può cambiare radicalmente anche il messaggio che si passa al search engine

Gli utenti possono vedere il contenuto del robots.txt

Generalmente no, il file robots txt è visto soltanto dagli agenti crawler ( bot ) dei search engine.

/robots.txt

Tuttavia, il file robots.txt è comunque un file di testo di default che si chiama allo stesso modo e si trova nello stesso posto su tutti i siti web. Quindi, un utente esperto può leggere il suo contenuto, semplicemente digitando il suo indirizzo URL nella barra degli indirizzi del browser.

esempio di visualizzazione del file robots.txt  sul browser

E' quindi preferibile non inserire informazioni riservate al suo interno. Va usato principalmente per inibire l'accesso alle directory da proteggere, quelle contenti dati segreti o riservati.

Esempio. Se una directory riservata contiene molte sottocartelle, è sufficiente inibire l'accesso dei robots soltanto sulla prima cartella madre senza indicare anche le altre. Le sottocategorie interne sono comunque escluse dalla scansione quando la cartella che le contiene è già stata inibita.
il comando disallow esclude la scansione anche sulle sottodirectory
Inserire le sottodirectory nel file robots è inutile ed è anche pericoloso per la sicurezza del sito. Indicando le sottocartelle si potrebbe fornire ai malintenzionati una info utile sulla struttura interna della cartella nascosta e rendergli più facile trovare le informazioni riservate tramite un semplice browser.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Libri di approfondimento
  1. Cos'è l'indicizzazione
  2. La deindicizzazione
  3. Il metatag robots
  4. La SiteMap del sito
  5. Il file robots.txt

FAQ

  1. Come inserire un sito sui motori di ricerca
  2. Come segnalare un sito ( Submit )
  3. Come segnalare una pagina web su Google
  4. Come bloccare l'indicizzazione di una pagina
  5. Come indicizzare rapidamente una URL su Google
  6. Indicizzare o deindicizzare i tag e le categorie?