Contenuti copiati

I contenuti copiati sono i testi trascritti da una pagina di un sito web e incollati su un altro, con o senza autorizzazione da parte della fonte originale. Il contenuto copiato può essere parziale o completo. Questa pratica è sconsigliata perché rientra nello spam-engine. In casi particolari i contenuti riprodotti possono anche causare danni all'autore originale dell'articolo.

Qual è la differenza tra contenuti copiati e duplicati?

Il contenuto copiato è presente su due siti web differenti. Il contenuto duplicato, invece, si trova su pagine differenti dello stesso sito web.

Le tipologie di contenuto copiato

Esistono diversi tipi di contenuti copiati su internet, le principali categorie sono le seguenti:

Copia integrale o parziale

Il contenuto copiato coincide esattamente con quello di una fonte identificata. Può essere copiata l'intera pagina ( copia integrale ) o soltanto alcune frasi e parti interne ( copia parziale ).

esempio di contenuto copiato integralmente o parzialmente

Questa tipologia di copia è facilmente identificabile sui search engine tramite la corrispondenza esatta del testo ( exact matching ).

Copia con piccole alterazioni

Il contenuto copiato è leggermente diverso dall'originale. Al testo sono apportate piccole variazioni per distinguerlo da quello originale.

Ad esempio, viene deliberatamente modificato l'ordine delle parole, la frequenza delle occorrenze, viene sostituita una lettera nella parola, e/o una parola con un'altra.

Potrebbe trattarsi di una rielaborazione manuale oppure automatica del testo ( gibberish text ). In quest'ultimo caso, il testo è un contenuto senza senso e/o con evidenti errori di ortografia.

il processo dibberish text di variazione casuale delle frasi di un documento

In questo caso il controllo tramite exact matching di un estrato del testo non funziona. E' quindi più difficoltoso per il motore di ricerca capire l'origine del documento.

Copia aggiornata frequentemente

I documenti con contenuti copiati sono statici, dopo l'operazione di copia e incolla restano online inalterati per molto tempo, poiché chi li ha copiati ( lo scraper ) non li cura. Altrimenti li avrebbe scritti di suo pugno.

Tuttavia, un contenuto copiato potrebbe anche essere aggiornato automaticamente con nuove informazioni.

Potrebbe trattarsi di una pagina dinamica alimentata dalle informazioni testuali prelevate via news feed ( es. RSS ) da altre fonti esterne.

esempio di scraping dinamico tramite RSS

La presenza del contenuto automatico più difficile il riconoscimento tramite exact matching, poiché le informazioni sono pubblicate online di recente dalle fonti ( fresh update ) e potrebbero non essere ancora indicizzate dal search engine.

Inoltre, il contenuto copiato cambia frequentemente.

Le penalizzazioni del search engine per contenuti copiati

Copiare i contenuti altrui non conviene. Oltre che per le conseguenze legali dovute alla violazione del copyrights, questa pratica espone chi copia al rischio di subire una penalizzazione da parte del search engine. I contenuti riportati su altri siti web sono considerati spam-engine dai motori di ricerca.

Nota. Le pagine copiate sono considerate di scarsa qualità anche se riconoscono o citano la fonte del testo copiato.

La penalizzazione del search engine può consistere in un declassamento della singola pagina ( spam-page ) o dell'intero sito web ( spam-site ).

  1. La penalizzazione colpisce la singola pagina quando si tratta di un caso isolato. Consiste in un declassamento della spam page che non intacca l'autorevolezza e le altre pagine del sito web.
  2. La penalizzazione colpisce l'intero sito web quando è composto da molte spam-page. In quest'ultimo caso si rischia il declassamento di tutte le pagine del sito oppure l'esclusione dal search engine ( ban ) del nome di dominio.

Un contenuto copiato può posizionarsi meglio dell'originale? A volte può capitare. Il motore di ricerca cerca di massimizzare l'esperienza utente. Se un sito offre informazioni duplicate, copiate da altri siti, ma ne consente una fruizione migliore ( accessibile ) oppure è più autorevole, è probabile che la pagina scopiazzata compaia prima dell'originale nei risultati di Google. Tuttavia, è una pratica sconsigliata perché espone chi la attua al rischio di subire una penalizzazione più o meno grave sul search engine.

Perché alcuni contenuti copiati sono primi su Google?

Un contenuto copiato da un'altra fonte è un contenuto ottenuto senza alcuno sforzo ed esperienza, e senza aggiungere alcun valore aggiunto informativo per l'utente finale. Generalmente sono considerati lowest quality pages dai motori di ricerca.

Tuttavia, non tutti i contenuti copiati sono giudicati di scarsa qualità dai search engine.

Ad esempio, Google non considera il diritto di autore come fattore di ranking. Il motore di ricerca di Mountain View istruisce i suoi quality rater ad analizzare gli scopi della pagina con contenuti copiati.

  1. Perché la pagina esiste?
  2. Quale valore aggiunto offre agli utenti?
  3. Quale vantaggio hanno a leggere il contenuto copiato anziché quello originale?

Se offre un'esperienza utente migliore, il contenuto copiato potrebbe posizionarsi insieme o prima dell'originale. Viceversa, in assenza di valide giustificazioni, il contenuto copiato è considerato di scarsa qualità ( lowest quality content ) ed è penalizzato sul ranking.

Web scraping. Un esempio di copia di scarsa qualità è sicuramente lo scraping, ossia la pratica di copiare del contenuto da un sito non affiliato, senza pensare all'utente finale, al solo scopo di ottenere un posizionamento organico sui motori di ricerca.

Come riconoscere un contenuto copiato dall'originale

I motori di ricerca usano come riferimento la data di indicizzazione dell'indirizzo Url. Se due documenti hanno lo stesso contenuto, quello indicizzato prima è considerato l'originale.

Eccezione. Se il contenuto indicizzato prima contiente al suo interno la citazione o il link verso l'altro indirizzo indicizzato dopo, quest'ultimo viene considerato originale.

Google ha accesso al contenuto delle opere editoriali, libri e pubblicazioni varie tramite Google Books. Può riconoscere anche un contenuto online trascritto da un libro cartaceo e confrontare la data di indicizzazione della pagina web con quella di pubblicazione dell'opera.

Nota. In genere, i libri sono considerate fonti più autorevoli dei siti web anche se non è raro il fenomeno del copia e incolla inverso, in cui è il libro a riprodurre contenuti presi dal web senza alcuna citazione.

Contenuti copiati per Negative Seo

I contenuti copiati sono anche uno strumento della Seo negativa perché possono posizionarsi prima su Google e danneggiare l'autore del documento originale.

Se il falso contenuto viene indicizzato dal motore di ricerca prima del contenuto originale, il search engine potrebbe considerare erroneamente il primo come originale e il secondo come una copia. Quest'ultimo è esposto alla penalizzazione nonostante sia il vero autore del pezzo.

Esempio. Gli aggregatori di notizie sono visitati con elevata frequenza dai crawler dei search engine, più di un normale sito web, essendo continuamente aggiornati. E' quindi possibile che Google veda un titolo, un abstract o un intero articolo prima sull'aggregatore e poi sul sito originale. Se sulla pagina dell'aggregatore manca un link alla fonte, potrebbe essere scambiata per l'originale.

Come evitare questo rischio?

Al momento della pubblicazione di un documento originale è consigliabile farlo indicizzare su Google prima degli altri, per evitare qualsiasi fraintendimento tra l'originale e le eventuali copie.

Inoltre, è preferibile attendere l'indicizzazione prima di condividere il link suo social network o su altri canali di contatto below the web ( es. newsletter, feed RSS, ecc. ).

Nota. A parte i casi di notizie date in anteprima con forte impatto virale, è sempre preferibile attendere l'indicizzazione del motore di ricerca prima di condividere il pezzo sui social network.

Come segnalare le violazioni del diritto d'autore?

Il motore di ricerca Google offre uno strumento apposito per segnalare le violazioni del copyrights che consente di rimuovere rapidamente dai risultati di ricerca gli indirizzi Url ove si trova lo spam e il contenuto copiato da altri senza autorizzazione.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Libri di approfondimento
  1. I contenuti copiati
  2. Come riconoscere l'originale dalle copie
  3. Come trovare chi ha copiato
  4. La tecnica del trojan copywriting