Come inserire un sito web sui motori di ricerca

Un sito web viene inserito sui motori di ricerca tramite un'operazione detta indicizzazione che significa inserimento negli indici del search engine. Può avvenire in modo naturale oppure essere influenzato dal sito web mediante diversi accorgimenti. E' uno dei capitoli più tecnici nel lavoro di ottimizzazione.

Come segnalare un sito web sui motori di ricerca

Dopo aver messo online il sito web, si segnala al motore di ricerca l'indirizzo URL della home page tramite il servizio di submit. La stessa operazione va ripetuto in ogni search engine ( Google, Bing, Yandex, Baidu, ecc. ).

esempio di operazione di submit su Google

Il submit non assicura che il crawler del motore di ricerca passi subito a vedere il sito. Potrebbe anche non passare mai. E' comunque il primo passo da fare per comunicare al search engine l'esistenza del sito web.

Questo processo naturale di indicizzazione è però molto lungo. E' preferibile influenzare l'indicizzazione da parte del motore di ricerca tramite alcuni accorgimenti tecnici.

Perché influenzare l'indicizzazione

Si potrebbe lasciare fare tutto al motore di ricerca, fare un submit e attendere che il crawler del search engine visiti il sito per indicizzare i suoi contenuti.

Così facendo, però, si dovrà attendere molto più tempo prima di vedere incluse le pagine web del sito sul motore di ricerca.

Inoltre, non è detto che ogni documento del sito web debba essere indicizzato. Per alcune pagine sarebbe meglio evitare l'indicizzazione. Basti pensare ai documenti riservati, alle directory di sistema e ai contenuti duplicati.

Per queste ragioni è preferibile stabilire delle regole di scansione e comunicarle al motore di ricerca.

Nota. La presenza di contenuti duplicati sul sito peggiora l'ottimizzazione e, quindi, influisce negativamente sul posizionamento organico naturale sui risultati di ricerca.

Gli strumenti per gestire l'indicizzazione

Ogni webmaster ha disposizione diversi strumenti per comunicare al search engine quali sono le pagine web da indicizzare e quali da non indicizzare o deindicizzare se già presenti negli indici.

  1. Il file Robots.txt
  2. Il Meta Robots
  3. La Sitemap

Il File Robots.txt

Si tratta di un semplice file di testo situato nella cartella principale ( root ) del sito web, nella cartella del server ( o hosting ) dove generalmente si trova anche l'home page del sito. Dentro il file Robots.txt sono inserite le indicazioni da passare al search engine.

il file robots.txt

Può essere scritto con qualsiasi editor di testo, salvato come file in formato TXT e aggiunto al sito tramite un software FTP.

Prima di effettuare l'indicizzazione, gli spider bot dei search engine verificano l'esistenza del file robots.txt per leggere le regole di scansione.

esempio di file robots.txt

Esempio. Si può indicare quali directory del sito includere ( allow ) o escludere ( disallow ) dall'indicizzazione. Se una cartella è inibita dall'istruzione Disallow, il crawler non la scansiona e, quindi, non la indicizza.

E' anche possibile assegnare regole diverse ai vari motori di ricerca.

Il Meta Robots

E' un meta-tag contenuto nei documenti HTML. E' situato nella sezione <HEAD> del documento. Gli utenti non vedono le informazioni contenute in questo meta-tags che sono destinate esclusivamente ai bot dei motori di ricerca.

<html>
<head>
<meta name="robots" content="index">
</head>
</html>

Quando uno spider scansiona un documento, legge le indicazioni inserite dall'autore nel meta tag robots. Quando trova il parametro index, lo spider procede all'indicizzazione della pagina.

Nota. Per default lo spider indicizza comunque la pagina se il meta robots è mancante. Quindi, se questo meta-tag manca in un documento, questo non inibisce la sua indicizzazione. E' comunque buona norma inserirlo in tutte le pagine da indicizzare.

Come bloccare l'indicizzazione su alcune pagine

Grazie al meta-tag Robots è possibile non far indicizzare o deindicizzare un singolo documento, senza influire sull'indicizzazione degli altri documenti presenti nella stessa cartella.

Per non indicizzare un documento è sufficiente inserire il parametro "noindex" all'interno del documento. Il bot scansiona la pagina, prende nota dei link ma non indicizza il documento sul motore di ricerca.

Nofollow. Per inibire anche la scansione dei collegamenti ipertestuali in uscita, occorre aggiungere nel meta-robots anche il parametro "nofollow".

La Sitemap

La sitemap è un file contenente l'elenco di tutti i documenti del sito web, quelli da indicizzare. In genere, si tratta di un file in formato XML.

Viene caricato sul sito in una directory a cui gli spider hanno accesso. L'indirizzo URL della site-map viene, infine, comunicato al search engine.

Esempio. Google consente di indicare una o più site-map tramite uno dei tool della Search Console ( ex Google Webmaster Tools ).
un esempio di sitemap su Google

Nella Sitemap sono elencati gli indirizzi URL delle pagine del sito ed eventualmente la priorità da assegnare a ciascuno di essi durante le operazioni di indicizzazione.

Perché la sitemap è utile?

La sitemap può essere vista come un submit multiplo. A differenza del submit anonimo, si hanno diversi vantaggi con la sitemap:

  1. Indicizzazione più veloce. Con la Sitemap si ha la certezza che il crawler passerà a visitare il sito in tempi più rapidi.
  2. Indicizzazione completa. Alla prima visita il crawler visita tutte le pagine del sito web, quelle indicate nell'elenco della Sitemap, e non soltanto l'home page.
  3. Indicizzazione delle deep-pages. La Sitemap evita il rischio che qualche documento resti fuori dall'indicizzazione naturale perché troppo profondo e poco linkato. Se la struttura dei link interni del sito non collega tutti i documenti, qualche pagina potrebbe non essere mai raggiunta dagli spider e, quindi, non essere indicizzata.

Nota. Non inserire un indirizzo nella sitemap non significa non indicizzarlo o deindicizzarlo. Se un indirizzo URL non è presente nella sitemap ma è comunque presente sul sito, è linkato da altri documenti e l'indicizzazione non è inibita, questo sarà comunque indicizzato dal motore di ricerca.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Libri di approfondimento
  1. Cos'è l'indicizzazione
  2. La deindicizzazione
  3. Il metatag robots
  4. La SiteMap del sito
  5. Il file robots.txt

FAQ

  1. Come inserire un sito sui motori di ricerca
  2. Come segnalare un sito ( Submit )
  3. Come segnalare una pagina web su Google
  4. Come bloccare l'indicizzazione di una pagina
  5. Come indicizzare rapidamente una URL su Google
  6. Indicizzare o deindicizzare i tag e le categorie?