I contenuti simili

I contenuti simili sono documenti che affrontano lo stesso argomento, utilizzando le stesse co-occorrenze, in uno stesso sito web oppure in siti web differenti.

La differenza tra contenuti simili e duplicati

Un contenuto duplicato è un testo che si presenta con le stesse parole, struttura e forma in più documenti dello stesso sito. E' detto contenuto copiato se si presenta tale e quale ma su un sito web diverso.

la differenza tra contenuti simili, copiati e duplicati

Un contenuto simile, invece, è un insieme di parole chiave elaborato in una forma e struttura diversa su più documenti appartenenti allo stesso sito web oppure a un sito differente.

Contenuti simili tra siti web diversi

A differenza dei contenuti esattamente duplicati, i contenuti simili non sono considerati spam-engine ma possono comunque subire il filtro del search engine e scomparire dalle serp più importanti.

Nel 2013 Google ha introdotto Hummingbird, un nuovo algoritmo semantico che valorizza l'insieme delle chiavi presenti in un documento ( co-occorrenze ) anziché un'unica main keyword. Quindi, anche documenti formalmente differenti ma simili possono essere considerati come risultati duplicati.

A parità di contenuti informativi, il search engine potrebbe applicare dei filtri per eliminare i risultati simili pubblicati nei siti web meno autorevoli e popolari.

Nota. Si tratta di un'euristica e non è sicuro che i search engine la utilizzino veramente. E' comunque un'ipotesi da considerare.

Il filtro sui risultati di ricerca potrebbe attivarsi nel caso in cui le due pagine abbiano esattamente le stesse parole chiave dentro una struttura grammaticale differente, in un testo di lunghezza complessiva più o meno variabile. Non sono contenuti duplicati ma molto simili e nessuno dei due apporta un valore aggiunto rispetto all'altro

Esempio. E' il caso tipico della rielaborazione di un articolo o di una news di agenzia battuta contemporaneamente da centinaia di giornali online che dicono le stesse cose, usando le stesse keyword con stop-word differenti. Anche se non si tratta di un plagio ed è normale che accada quando si parla degli stessi eventi, il contenuto informativo è comunque equivalente agli occhi di un search engine.

Contenuti simili nello stesso sito web

Il fenomeno dei contenuti simili può anche verificarsi all'interno di uno stesso sito web.

i contenuti simili del sito web

Quando il motore di ricerca riscontra documenti simili, quelli che trattano lo stesso argomento in un sito web più o meno con le stesse parole chiave, si disorienta e non comprende più quale sia il documento prioritario su quell'argomento specifico.

Esempio. Un sito web e-commerce con migliaia di articoli appartenenti alla stessa categoria merceologica e marca, potrebbe imbattersi nel problema duplicazione delle keyword. Lo stesso problema può verificarsi con l'apertura di un blog aziendale con post che utilizzano le stesse parole chiave delle schede prodotto.

In questi casi, il motore di ricerca non sa quale scegliere tra i documenti simili. Sono tutti ottimizzati su una stessa chiave o topic, ma è difficile capire quale sia quello principale.

Come risolvere il problema degli inside similar content

Per evitare la cannibalizzazione dei contenuti è utile usare la canonizzazione delle pagine web tramite il rel canonical nei documenti simili appartenenti allo stesso sito web.
esempio di canonizzazione tra due contenuti simili

Nota. La canonizzazione non è un reindirizzamento. La seconda pagina continua a esistere online, gli utenti possono raggiungerla tramite i link interni del sito, ma il search engine prende come riferimento soltanto la prima per quella specifica keyword o topic.

Si può anche accorpare i documenti simili in un'unica pagina, oppure si possono legare i documenti tra loro come una sequenza tramite i metatags link rel next e rel prev.

i metatag rel next e prev tra due documenti successivi sullo stesso tema

In alternativa, si possono scorporare i documenti per tematiche in sottodomini o domini diversi ( es. blog aziendale in un sottodominio del sito e-commerce o in un sito a se stante ).

la scelta tra il dominio, il sottodominio e la cartella per creare un nuovo sitoweb

Un caso particolare: i magazine online

Il problema dei similar content si verifica nei magazine online dove nel corso del tempo sono pubblicati articoli sugli stessi argomenti ( es. inflazione, disoccupazione, sport, ecc. ).

Le news hanno una grande visibilità su Google News e, indirettamente, sul box-news nelle SERP oppure tramite gli algoritmi che avvantaggiano temporaneamente i contenuti più freschi ( fresh content ) sul posizionamento organico.

esempio di serp su Google con box news di Google News

Tuttavia, si tratta di una visibilità temporanea, destinata a scomparire nel giro di poche ore o giorni. Questo handicap può trasformarsi in punto di forza ed eliminare il problema dei contenuti simili.

Per evitare che le news più vecchie si perdano nel deep web, lontane dalla home page del sito principale e dai risultati sulle pagine dei risultati di ricerca dei search engine sulle keyword più importanti, è utile seguire alcune strategie:

  1. Deindicizzare gli articoli news più vecchi, lasciandoli online con un link follow ben evidente verso la pagina di categoria dell'argomento, dove compaiono le ultime news sullo stesso argomento, per passargli il link juice. Prima di deindicizzare le pagine è opportuno verificare che i vecchi articoli non ricevano più traffico organico di utenti.
    la deindicizzazione degli articoli più vecchi per favorire quelli nuovi
  2. Content pillar article. Il content pillar è una pagina statica che raccoglie, in modo parziale o integrale, il contenuto di tutti gli articoli news pubblicati in passato sull'argomento. I vecchi articoli sono eliminati con un reindirizzamento verso l'indirizzo del content pillar articole. Ad esempio, se le pagine A, B e C parlano dello stesso argomento, dopo un anno i loro contenuti vengono spostati in una pagina D. Le pagine d'origine A, B, C vengono reindirizzate verso il content pillar D.

Evitare le ripetizioni di argomenti simili nel sito

Tutto ciò che deve essere detto, deve essere detto con chiarezza, sul resto si deve tacere. Questa massima della comunicazione e della filosofia ci arriva da Ludwig Wittgenstein.

Nella seo semantica alla frase di Wittgenstein occorre però aggiungere anche un'ulteriore parte, occorre dirlo una sola volta, senza ripetere lo stesso concetto più volte nei contenuti e nei documenti.

eliminazione dei contenuti ridondanti

Le ridondanze dello stesso concetto non aiutano il sito web a posizionarsi meglio su quelle chiavi. Piuttosto che ripetersi, è consigliabile espandere il campo semantico su argomenti vicini, contenuti correlati o secondari.

Nota. Su internet è frequente dire Content is the King per affermare l'importanza dei contenuti di un sito nel processo di ottimizzazione. E' ormai una massima della Seo Copywriting. Come due re non possono regnare in uno stesso castello, senza darsi fastidio a vicenda, allo stesso modo due contenuti simili non possono stare nello stesso sito web.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Libri di approfondimento

FAQ

  1. Perché conviene aggiornare i vecchi contenuti
  2. Come segnalare le violazioni di copyrights su Google
  3. Cos'è l'analisi del gap nel contenuto