Spam lessicale

Lo spam lessicale è un fenomeno che si verifica quando i testi sono rielaborati e riscritti dalla stessa persona, in modi diversi, per creare corpus e documenti aventi le stesse informazioni scritte in modo differente.

A cosa serve la rielaborazione del testo

E' una tecnica utilizzata online per creare contenuti pertinenti su un particolare tema. Il copywriter legge un testo già affermato sull'argomento, ad esempio un brano di Wikipedia, e lo riscrive utilizzando un'altra struttura grammaticale e lessicale.

In questo modo, il documento rielaborato può essere pubblicato tranquillamente su un'altra pagina web, senza essere considerato un contenuto copiato. La struttura grammaticale del documento è completamente differente.

Il prodotto finale è un contenuto simile ma non uguale all'originale. A parte le parole chiave e quelli specifici, il copywriter usa parole diverse per dire la stessa cosa del documento originale.

Nota. Questa tecnica è spesso utilizzata nei private blog network ( PBN ) per creare i contenuti tematici da pubblicare nei website. Si tratta pertanto di contenuti di media qualità.

A volte i contenuti riscritti sono più scorrevoli di quelli originali e il copywriter che li rielabora viene premiato sui search engine tramite i segnali provenienti dalla buona user experience degli utenti.

In altri casi, invece, i contenuti non forniscono alcun valore aggiunto all'utente finale, e contribuiscono ad aumentare lo spam engine sulle pagine dei risultati del motore di ricerca ( serp ). Per questa ragione, i motori di ricerca tentano di contrastare questa pratica.

Come individuare i contenuti rielaborati

Non è facile individuare i contenuti rielaborati tramite un algoritmo. Tuttavia, non è impossibile accorgersi di alcune regolarità lessicali e semantiche nei documenti.

Ogni scrittore ha una propria forma di scrittura e un proprio bagaglio lessicale ( dizionario ), lascia inconsapevolmente una firma nascosta nei testi.

Questo elemento distintivo è detto firma lessicale dello scrittore. L'informazione consente indirettamente di riconoscere lo stesso autore di più documenti e la vera paternità dei testi.

Come si calcola la firma lessicale

Per scovare la firma lessicale di un testo occorre analizzare le parole comuni, quelle conosciute anche come stop-word. Questi termini caratterizzano la forma di scrittura di una persona.

Cos'è una stop word? E' un termine comune del testo, come gli articoli, le preposizioni, i verbi semplici, alcuni sostantivi, gli avverbi, gli aggettivi, ecc. Non sono termini specifici e possono essere trovati nei documenti che trattano diversi argomenti. Sono detti "stop-word" perché in un processo di searching IR ( Information Retrieval ) questi termini sono eliminati, in quanto irrilevanti. A volte, però, sono utili.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Libri di approfondimento