Come individuare i contenuti copiati
Per capire se un contenuto è originale oppure è stato copiato da altre fonti esterne, si possono adottare diverse tecniche. Tuttavia, non è sempre possibile risalire alla natura di un documento.
La corrispondenza esatta delle frasi
Una tecnica molto diffusa è il controllo della corrispondenza esatta delle frasi del documento in altre pagine web ( exact match phrase ).
Si copia una frase del documento e incollarla nel campo di ricerca del search engine Google, ponendo la frase tra parentesi ed eliminando i segni di punteggiatura.
Nota. E' consigliabile eliminare anche le parole sospette e i caratteri inusuali, potrebbero essere stati inseriti appositamente tramite degli algoritmi di gibberish text per creare delle varianti letterali ed eludere l'exact match phrase.
Se la frase è già presente sul web in altri documenti, è possibile che sia un contenuto copiato, oppure che sia stato copiata da terzi
.
Ripetendo il procedimento con più frasi del documento, selezionate casualmente a campione, si può avere un'idea di massima della situazione.
Si possono verificare due situazioni:
- Il documento ha copiato le frasi da altre fonti. In questo caso il documento è un contenuto copiato e viene trattato come tale dal search engine. Generalmente, questa tipologia di contenuti è classificata tra le pagine di scarsa qualità ( lowest quality pages ). Tuttavia, non è sempre penalizzata dal motore di ricerca. Tutto dipende dall'esperienza utente.
- Il documento è originale ma è stato copiato da altri siti web. In questa situazione il documento non ha colpe, i suoi contenuti sono stati copiati da altri siti. Potrebbe trattarsi di un comunicato stampa, di un caso di copia e incolla senza autorizzazione o negative seo.
Article Marketing. Se il contenuto è stato copiato su website affiliati al sito web originale, potrebbe anche trattarsi di un tentativo di article marketing. Una tecnica di ottimizzazione Seo di scarsa qualità. In questo caso, il sito web ufficiale potrebbe essere responsabile della copia e subire una penalizzazione per spam-engine e/o backlink non naturali.
La corrispondenza parziale delle occorrenze nella frase
In alcuni casi il controllo della corrispondenza esatta della frase non funziona.
Spesso i contenuti non sono copiati ma rielaborati. Le stesse parole chiave sono riscritte in frasi apparentemente diverse. Pur non essendo contenuti copiati, si tratta comunque di contenuti simili senza alcun valore aggiunto per l'utente finale.
Alcuni software di spam ( es. algoritmo gibberish text ) rielaborano automaticamente il testo di un documento variando appositamente l'ordine e la frequenza delle occorrenze, oppure le lettere nelle parole, per sfuggire ai controlli della corrispondenza esatta.
Per questo motivo è utile ripetere la query sul search engine anche con la frase senza virgolette.
Questa seconda verifica "not exact match" consente di vedere se esistono altri documenti che usano le stesse occorrenze dentro una frase, le stesse parole chiave.
In questo modo si individuano i tentativi di rielaborazione del documento e si estende il controllo sull'originalità del documento anche ai contenuti simili.
Come riconoscere un contenuto copiato per spam
Pur non essendoci un criterio generale, è possibile stilare alcune regole euristiche per riconoscere un soggetto scopiazzato e distinguerlo da quello originale.
- Se il testo copiato è parziale, è breve ed è integrato in un articolo originale per almeno il 70% del contenuto, il documento non è considerato spam. Ad esempio, il paragrafo copiato potrebbe essere una citazione oppure un testo virgolettato.
- Se il testo copiato è parziale, è breve ed è integrato in un articolo composto da altri contenuti brevi copiati da altri siti web, il documento è quasi sicuramente spam.
Esempio. Nella seguente rappresentazione il documento B integra l suo interno dei pezzi tratti dalle pagine esterne C, D, E. Il documento B è quasi certamente un contenuto copiato e/o aggregato. Il documento A, invece, è sicuramente un contenuto originale.
- Se il testo copiato è integrale ma contiene il link all'indirizzo originale, non è considerato spam quando si tratta di casi particolari ( es. comunicati stampa, il testo di una legge, ecc. ). Tuttavia, se un sito web è composto prevalentemente da contenuti di questo sito, potrebbe essere considerato uno spam-site oppure una forma di article-marketing di scarsa qualità.
Nota. La copia totale di un contenuto può esporre anche alla violazione del diritto d'autore e del copyrights, le cui spese e conseguenze legali sono più importanti di qualsiasi altro vantaggio temporaneo sulle Serp.
- Se il testo copiato è integrale e non contiene il link alla fonte, è considerato comunque una copia se la data di indicizzazione nel search engine è successiva a quella del contenuto originale. Un sito con molti contenuti di questo tipo è destinato ad essere penalizzato dagli algoritmi anti-spam del search engine.
Come distinguere il contenuto originale dalle copie
Uno dei controlli è sicuramente la data di pubblicazione del documento. Il documento pubblicato prima è ragionevolmente originale.
Tuttavia, la data di pubblicazione potrebbe essere falsa o manipolata per essere anteriore agli altri documenti. E' più efficace utilizzare la data di indicizzazione del documento nel search engine.
L'originalità può essere valutata anche in base ad altre informazioni, come la reputazione e l'autorevolezza della fonte.
Se un testo è pubblicato da una fonte autorevole, nota per i suoi contenuti originali, è molto probabile che sia la fonte originale del testo.
Viceversa, se la fonte ha una scarsa reputazione, oppure ha causato spam in passato, ha scarse probabilità d'essere considerata come contenuto originale.
Tecniche per riconoscere il plagio
L'analisi del testo consente spesso di distinguere il plagio ( testo copiato senza citazione ) dal contenuto plagiato ( origiale ) quando a essere copiati sono soltanto alcune frasi.
Chi copia soltanto alcune singole frasi o periodi, poi le integra dentro un documento diverso. Così facendo, però, emergono alcuni segnali di discontinuità tra la singola frase e il resto del testo.
Nella lista sono elencati alcuni indizi di plagio in una frase
- repentino cambio di vocabolario.
- una netta variazione dello stile
- diversa forma grammaticale
- uso dei verbo con tempi e persona differente
- medesimo errore di ortografia, grammaticale o refuso, non riscontrabile in altre parti del testo
- cambio di font e dimensioni
- link, classi css e tag html differenti al resto del testo oppure uguali un'altra fonte esterna
Nota. L'operazione copia e incolla trasporta anche il font ( Arial, Verdana, ecc. ) e le dimensioni del carattere, nonché i tag HTML del documento ( link, tag di formattazione, ecc. ). Se il documento presenta questi elementi soltanto in un periodo del testo e non negli altri, è probabile che il periodo sia stato copiato e incollato da qualche altro sito web.
Inoltre, le frasi plagiate sono piene di termini tecnici o accademici, in quanto il plagiario pensa facciano parte del linguaggio forbito. Questi termini non sono però usati dal plagiario anche nel resto del corpus del testo.
I contenuti copiati dalle vecchie pagine web
A volte i contenuti copiati sono tratti da vecchie pagine web di altri siti, modificate e non più esistenti, con un contenuto corrente diverso da quello passato.
In questo caso il controllo per corrispondenza esatta o parziale non funziona.
Esempio. Le pagine di Wikipedia sono modificate frequentemente. La cronologia delle variazioni è pubblica ma non è indicizzata dai search engine. Un'eventuale copia di una frase dalla cronologia di Wikipedia non può essere individuata tramite i controlli per corrispondenza esatta o parziale. Lo stesso accade se il testo è tratto da una pagina web dall'Internet Archive Wayback Machine.