I contenuti simili
I contenuti simili sono documenti che affrontano lo stesso argomento, utilizzando le stesse co-occorrenze, in uno stesso sito web oppure in siti web differenti.
La differenza tra contenuti simili e duplicati
Un contenuto duplicato è un testo che si presenta con le stesse parole, struttura e forma in più documenti dello stesso sito. E' detto contenuto copiato se si presenta tale e quale ma su un sito web diverso.
Un contenuto simile, invece, è un insieme di parole chiave elaborato in una forma e struttura diversa su più documenti appartenenti allo stesso sito web oppure a un sito differente.
Contenuti simili tra siti web diversi
A differenza dei contenuti esattamente duplicati, i contenuti simili non sono considerati spam-engine ma possono comunque subire il filtro del search engine e scomparire dalle serp più importanti.
Nel 2013 Google ha introdotto Hummingbird, un nuovo algoritmo semantico che valorizza l'insieme delle chiavi presenti in un documento ( co-occorrenze ) anziché un'unica main keyword. Quindi, anche documenti formalmente differenti ma simili possono essere considerati come risultati duplicati.
A parità di contenuti informativi, il search engine potrebbe applicare dei filtri per eliminare i risultati simili pubblicati nei siti web meno autorevoli e popolari.
Nota. Si tratta di un'euristica e non è sicuro che i search engine la utilizzino veramente. E' comunque un'ipotesi da considerare.
Il filtro sui risultati di ricerca potrebbe attivarsi nel caso in cui le due pagine abbiano esattamente le stesse parole chiave dentro una struttura grammaticale differente, in un testo di lunghezza complessiva più o meno variabile. Non sono contenuti duplicati ma molto simili e nessuno dei due apporta un valore aggiunto rispetto all'altro
Esempio. E' il caso tipico della rielaborazione di un articolo o di una news di agenzia battuta contemporaneamente da centinaia di giornali online che dicono le stesse cose, usando le stesse keyword con stop-word differenti. Anche se non si tratta di un plagio ed è normale che accada quando si parla degli stessi eventi, il contenuto informativo è comunque equivalente agli occhi di un search engine.
Contenuti simili nello stesso sito web
Il fenomeno dei contenuti simili può anche verificarsi all'interno di uno stesso sito web.
Quando il motore di ricerca riscontra documenti simili, quelli che trattano lo stesso argomento in un sito web più o meno con le stesse parole chiave, si disorienta e non comprende più quale sia il documento prioritario su quell'argomento specifico.
Esempio. Un sito web e-commerce con migliaia di articoli appartenenti alla stessa categoria merceologica e marca, potrebbe imbattersi nel problema duplicazione delle keyword. Lo stesso problema può verificarsi con l'apertura di un blog aziendale con post che utilizzano le stesse parole chiave delle schede prodotto.
In questi casi, il motore di ricerca non sa quale scegliere tra i documenti simili. Sono tutti ottimizzati su una stessa chiave o topic, ma è difficile capire quale sia quello principale.
Come risolvere il problema degli inside similar content
Per evitare la cannibalizzazione dei contenuti è utile usare la canonizzazione delle pagine web tramite il rel canonical nei documenti simili appartenenti allo stesso sito web.
Nota. La canonizzazione non è un reindirizzamento. La seconda pagina continua a esistere online, gli utenti possono raggiungerla tramite i link interni del sito, ma il search engine prende come riferimento soltanto la prima per quella specifica keyword o topic.
Si può anche accorpare i documenti simili in un'unica pagina, oppure si possono legare i documenti tra loro come una sequenza tramite i metatags link rel next e rel prev.
In alternativa, si possono scorporare i documenti per tematiche in sottodomini o domini diversi ( es. blog aziendale in un sottodominio del sito e-commerce o in un sito a se stante ).
Un caso particolare: i magazine online
Il problema dei similar content si verifica nei magazine online dove nel corso del tempo sono pubblicati articoli sugli stessi argomenti ( es. inflazione, disoccupazione, sport, ecc. ).
Le news hanno una grande visibilità su Google News e, indirettamente, sul box-news nelle SERP oppure tramite gli algoritmi che avvantaggiano temporaneamente i contenuti più freschi ( fresh content ) sul posizionamento organico.
Tuttavia, si tratta di una visibilità temporanea, destinata a scomparire nel giro di poche ore o giorni. Questo handicap può trasformarsi in punto di forza ed eliminare il problema dei contenuti simili.
Per evitare che le news più vecchie si perdano nel deep web, lontane dalla home page del sito principale e dai risultati sulle pagine dei risultati di ricerca dei search engine sulle keyword più importanti, è utile seguire alcune strategie:
- Deindicizzare gli articoli news più vecchi, lasciandoli online con un link follow ben evidente verso la pagina di categoria dell'argomento, dove compaiono le ultime news sullo stesso argomento, per passargli il link juice. Prima di deindicizzare le pagine è opportuno verificare che i vecchi articoli non ricevano più traffico organico di utenti.
- Content pillar article. Il content pillar è una pagina statica che raccoglie, in modo parziale o integrale, il contenuto di tutti gli articoli news pubblicati in passato sull'argomento. I vecchi articoli sono eliminati con un reindirizzamento verso l'indirizzo del content pillar articole. Ad esempio, se le pagine A, B e C parlano dello stesso argomento, dopo un anno i loro contenuti vengono spostati in una pagina D. Le pagine d'origine A, B, C vengono reindirizzate verso il content pillar D.
Evitare le ripetizioni di argomenti simili nel sito
Tutto ciò che deve essere detto, deve essere detto con chiarezza, sul resto si deve tacere. Questa massima della comunicazione e della filosofia ci arriva da Ludwig Wittgenstein.
Nella seo semantica alla frase di Wittgenstein occorre però aggiungere anche un'ulteriore parte, occorre dirlo una sola volta, senza ripetere lo stesso concetto più volte nei contenuti e nei documenti.
Le ridondanze dello stesso concetto non aiutano il sito web a posizionarsi meglio su quelle chiavi. Piuttosto che ripetersi, è consigliabile espandere il campo semantico su argomenti vicini, contenuti correlati o secondari.
Nota. Su internet è frequente dire Content is the King per affermare l'importanza dei contenuti di un sito nel processo di ottimizzazione. E' ormai una massima della Seo Copywriting. Come due re non possono regnare in uno stesso castello, senza darsi fastidio a vicenda, allo stesso modo due contenuti simili non possono stare nello stesso sito web.