L'indicizzazione dei motori di ricerca

La pagina dei risultati del search engine è soltanto il prodotto finale di un lungo processo di processo di produzione, l'output di una catena di montaggio che parte dall'indicizzazione.

Cos'è l'indicizzazione?

L'indicizzazione è la catalogazione dei contenuti scansionabili di un sito web da parte di un search engine. E' detta così in quanto i contenuti sono aggiunti all'indice del database.

Per contenuto scansionabile si intende una risorsa del sito web ( documento, pagina, immagine, ecc. ) non inibita ai motori di ricerca tramite il file robots.txt o i meta tobots del documento html.

I motori di ricerca raccolgono le informazioni online tramite dei programmi informatici, detti crawler, spider oppure robot ( bot ).

Sono software agenti sono progettati per il codice html e il testo di una pagina web, scansionare e aggiungere all'indice del motore di ricerca tutte le informazioni contenute e seguire i link del documento.

Ogni motore di ricerca ne ha uno. Ad esempio, lo spider di Google si chiama Googlebot e scansiona ogni giorno milioni di documenti su internet. Non esiste uno standard valido per tutti.

Quando una risorsa viene aggiunta nel database del motore di ricerca viene detta risorsa indicizzata.

Come funziona uno spider ( crawler )?

Non si tratta di un programma intelligente, l'algoritmo si limita a eseguire la scansione dei documenti online in automatico.

  1. La coda degli indirizzi da visitare. Il motore di ricerca ha un elenco di indirizzi URL da visitare. In genere si tratta di indirizzi segnalati manualmente dagli utenti tramite l'invio di una Site Map o di un'operazione di Submit, oppure di risorse linkate da altri documenti online.
  2. La scansione del documento. I crawler legge il contenuto di una pagina web e lo salva come file cache sui server del search engine. La cache è una copia identica della pagina scasionata.In una fase successiva il bot inizia ad analizzare il contenuto del documento html.

L'indicizzazione è sostanzialmente questo, prelevare i dati dagli indirizzi online e inserirli nel database del motore di ricerca, associandogli un indice per trovarla più facilmente.

Durante la scansione l'algoritmo compie anche delle operazioni preliminari:

  1. Verifica se esistono dei collegamenti ipertestuali all'interno della pagina e, nel caso, li estrapola e li registra nella coda degli indirizzi Url da visitare in futuro.
  2. Individua le parole principali e le keyword ( parole chiave ). In genere, le trova analizzando i tag html che considera più importanti, come il title, gli header, i metatags, le immagini, ecc. Una volta trovate le keyword, le associa come indici del documento nel database.

A questo punto, l'indirizzo Url, il contenuto informativo della pagina e le parole chiave sono inserite nel database del motore di ricerca.

A distanza di tempo, l'algoritmo tornerà sulla pagina per verificare e registrare gli eventuali aggiornamenti sulla nuova versione.

Fin qui abbiamo visto l'input di un proceso IR, ora andiamo a vedere cosa accade al momento dell'output.

Come funziona il processo di ricerca

Quando un utente invia una richiesta al motore di ricerca, compila il campo di un modulo e preme sul pulsante invio. La richiesta è detta query.

Il search engine verifica in quali record del database i termini della query dell'utente sono compresi nell'indice.

Una volta trovate le risorse che soddisfano questa caratteristica, le ordina secondo un peso o un valore ( ranking ) e le mostra all'utente, a partire da quella più importante nella pagina dei risultati della keyword.

La pagina della lista dei risultati di un motore di ricerca è detta Serp ( Search Engine Result Page ).

Per non dover ripetere la ricerca su una stessa query, i search engine salvano le pagine dei risultati sotto forma di file di cache della Serp . Quando un utente digita una query, il search engine verifica se esiste già una copia dei risultati nella cache del sistema.

Ad esempio, se molti utenti digitano la stessa richiesta nello stesso giorno, si possono risparmiare molte risorse macchine richiamando come risultato la cache della Serp anziché ricalcolarla ogni volta.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Libri di approfondimento
  1. Cos'è l'indicizzazione
  2. La deindicizzazione
  3. Il metatag robots
  4. La SiteMap del sito
  5. Il file robots.txt

FAQ

  1. Come inserire un sito sui motori di ricerca
  2. Come segnalare un sito ( Submit )
  3. Come segnalare una pagina web su Google
  4. Come bloccare l'indicizzazione di una pagina
  5. Come indicizzare rapidamente una URL su Google
  6. Indicizzare o deindicizzare i tag e le categorie?