Contenuto Duplicato: Cause e Soluzioni

I motori di ricerca come Google hanno un problema: si chiama “contenuto duplicato”.

“Contenuti duplicati” significa che contenuti simili vengono visualizzati in più posizioni (URL) sul Web e, di conseguenza, i motori di ricerca non sanno quale URL mostrare nei risultati di ricerca. Questo può danneggiare il posizionamento Google di una pagina web e il problema peggiora solo quando le persone iniziano a collegarsi alle diverse versioni dello stesso contenuto. Questo articolo ti aiuterà a comprendere le varie cause dei contenuti duplicati e a trovare la soluzione a ciascuna di esse.

Cos’è il contenuto duplicato?
Illustriamolo con un esempio
Cause di contenuto duplicato
Fraintendimento del concetto di URL
ID di sessione
Parametri URL utilizzati per il monitoraggio e l’ordinamento
Scraper e diffusione di contenuti
Ordine dei parametri
Impaginazione dei commenti
Pagine stampabili
WWW vs. non WWW
Soluzione concettuale: un URL “canonico”
Identificazione di problemi di contenuti duplicati
Soluzioni pratiche per contenuti duplicati
Evitare contenuti duplicati
301 Reindirizzamento di contenuti duplicati
Utilizzo dei collegamenti
Collegamento al contenuto originale
Conclusione: il contenuto duplicato è risolvibile e dovrebbe essere corretto

Cos’è il contenuto duplicato?

Il contenuto duplicato è contenuto disponibile su più URL sul web. Poiché più di un URL mostra lo stesso contenuto, i motori di ricerca non sanno quale URL elencare più in alto nei risultati di ricerca. Pertanto potrebbero classificare entrambi gli URL più in basso e dare la preferenza ad altre pagine web.

In questo articolo, ci concentreremo principalmente sulle cause tecniche dei contenuti duplicati e sulle loro soluzioni. Se desideri avere una prospettiva più ampia sui contenuti duplicati e scoprire come si relazionano ai contenuti copiati o persino alla cannibalizzazione delle parole chiave, ti consigliamo di leggere questo post: Cos’è il contenuto duplicato.

Illustriamolo con un esempio

Il contenuto duplicato può essere paragonato a un incrocio in cui i segnali stradali puntano in due direzioni diverse per la stessa destinazione: quale strada devi prendere? A peggiorare le cose, anche la destinazione finale è diversa, ma solo leggermente. Come lettore, non ti dispiace perché ottieni il contenuto per cui sei venuto, ma un motore di ricerca deve scegliere quale pagina mostrare nei risultati di ricerca perché, ovviamente, non vuole mostrare lo stesso contenuto due volte.

Supponiamo che il tuo articolo sulla “parola chiave x” appaia su http://www.esempio.com/chiave-x/ e che lo stesso contenuto appaia anche su http://www.esempio.com/articolo-categoria/chiave-x/.

Questa situazione non è fittizia: accade in molti moderni sistemi di gestione dei contenuti. Quindi supponiamo che il tuo articolo sia stato raccolto da diversi blogger e alcuni di loro si colleghino al primo URL, mentre altri si collegano al secondo. Qui è quando il problema del motore di ricerca mostra la sua vera natura: è il tuo problema. Il contenuto duplicato è il tuo problema perché quei link promuovono entrambi URL diversi. Se si collegassero tutti allo stesso URL, le tue possibilità di posizionamento per la “parola chiave x” sarebbero maggiori.

Se non sai se le tue classifiche soffrono di problemi di contenuti duplicati, questi strumenti di rilevamento di contenuti duplicati ti aiuteranno a scoprirlo!

Cause di contenuto duplicato

Esistono dozzine di motivi per la duplicazione dei contenuti. La maggior parte di esse sono tecniche: non è molto frequente che un umano decida di mettere lo stesso contenuto in due posti diversi senza chiarire quale sia l’originale. A meno che tu non abbia clonato un post e lo abbia pubblicato per sbaglio, ovviamente. Ma per il resto, sembra innaturale per la maggior parte di noi.

Ci sono molte ragioni tecniche, tuttavia, e principalmente accade perché gli sviluppatori non pensano come un browser o anche un utente, per non parlare di uno spider del motore di ricerca: pensano come un programmatore. Prendi l’articolo che abbiamo citato in precedenza, che appare su http://www.example.com/keyword-x/ e http://www.example.com/article-category/keyword-x/. Se chiedi allo sviluppatore, diranno che esiste solo una volta.

Fraintendimento del concetto di URL

No, quello sviluppatore non è impazzito, parla solo una lingua diversa. Un CMS probabilmente alimenterà il tuo sito Web e in quel database c’è un solo articolo, ma il software del sito Web consente solo il recupero dello stesso articolo nel database tramite diversi URL. Questo perché, agli occhi dello sviluppatore, l’identificatore univoco di quell’articolo è l’ID che l’articolo ha nel database, non l’URL. Ma per il motore di ricerca, l’URL è l’identificatore univoco di una parte di contenuto. Se lo spieghi a uno sviluppatore, inizieranno a ottenere il problema. E dopo aver letto questo articolo, sarai anche in grado di fornire loro subito una soluzione.

ID di sessione

Spesso desidererai tenere traccia dei tuoi visitatori e consentire loro, ad esempio, di memorizzare gli articoli che desiderano acquistare in un carrello della spesa. Per fare ciò, devi dare loro una “sessione”. Una sessione è una breve cronologia di ciò che il visitatore ha fatto sul tuo sito e può contenere cose come gli articoli in carrello degli acquisti. Per mantenere quella sessione mentre un visitatore fa clic da una pagina all’altra, l’identificatore univoco per quella sessione, chiamato ID sessione, deve essere memorizzato da qualche parte. La soluzione più comune è farlo con i cookie. Tuttavia, i motori di ricerca di solito non memorizzano i cookie.

A quel punto, alcuni sistemi tornano a utilizzare gli ID di sessione nell’URL. Ciò significa che ogni collegamento interno sul sito Web ottiene quell’ID sessione aggiunto al proprio URL e, poiché tale ID sessione è univoco per quella sessione, crea un nuovo URL e quindi un contenuto duplicato.

Parametri URL utilizzati per il monitoraggio e l’ordinamento

Un’altra causa di contenuto duplicato è l’utilizzo di parametri URL che non modificano il contenuto di una pagina, ad esempio nei collegamenti di tracciamento. Vedi, in un motore di ricerca, http://www.esempio.com/chiave-x/ e http://www.esempio.com/chiave-x/source=rss non sono lo stesso URL. Quest’ultimo potrebbe consentirti di tenere traccia, per capire da quale fonte provengono le persone, ma potrebbe anche renderti più difficile posizionarti bene – un effetto collaterale indesiderato!

Questo non riguarda solo i parametri di monitoraggio, ovviamente. Vale per ogni parametro che puoi aggiungere a un URL che non cambia la parte vitale del contenuto, sia che quel parametro serva per ‘cambiare l’ordinamento su un insieme di prodotti’ o per ‘mostrare un’altra barra laterale’: in entrambi i casi si generano contenuti duplicati.

Scraper e diffusione di contenuti

La maggior parte dei motivi per i contenuti duplicati sono “colpa” tua o del tuo sito web. A volte, tuttavia, altri siti Web utilizzano i tuoi contenuti, con o senza il tuo consenso. Non sempre si collegano al tuo articolo originale, quindi il motore di ricerca non lo “capisce” e deve occuparsi di un’altra versione dello stesso articolo. Più il tuo sito diventa popolare, più scraper(ovvero contenuti rubati) avrai, rendendo questo problema sempre più grande.

Ordine dei parametri

Un’altra causa comune è che un CMS non utilizza URL puliti, ma piuttosto URL come /? Id = 1 & cat = 2, dove ID si riferisce all’articolo e cat si riferisce alla categoria. L’URL /? Cat = 2 & id = 1 restituirà gli stessi risultati nella maggior parte dei sistemi di siti web, ma sono completamente diversi per un motore di ricerca.

Impaginazione dei commenti

Nel mio amato WordPress, ma anche in alcuni altri sistemi, c’è un’opzione per impaginare i tuoi commenti. Ciò porta alla duplicazione del contenuto nell’URL dell’articolo e nell’URL dell’articolo + / comment-page-1 /, / comment-page-2 / ecc.

Pagine stampabili

Se il tuo sistema di gestione dei contenuti crea pagine stampabili e ti colleghi a quelle dalle pagine dei tuoi articoli, di solito Google le trova, a meno che tu non le blocchi specificamente. Ora chiediti: quale versione vuoi che Google mostri? Quello con i tuoi annunci e i contenuti periferici o quello che mostra solo il tuo articolo?

WWW vs. non WWW

Questo è uno dei più vecchi problemi di questo genere, a volte i motori di ricerca continuano a sbagliare: contenuti duplicati WWW e non WWW, quando entrambe le versioni del tuo sito sono accessibili. Un’altra situazione meno comune, ma che abbiamo incontrato, è HTTP rispetto a contenuti duplicati HTTPS, in cui lo stesso contenuto viene offerto su entrambi.

Soluzione: un URL “canonico”

Come abbiamo già visto, il fatto che più URL conducano allo stesso contenuto è un problema, ma può essere risolto. Una persona che lavora in una pubblicazione sarà normalmente in grado di dirti abbastanza facilmente quale dovrebbe essere l’URL “corretto” di un determinato articolo, ma a volte quando chiedi a tre persone della stessa azienda, otterrai tre risposte diverse …

Questo è un problema che deve essere risolto perché, alla fine, può essercene solo uno (URL). L’URL “corretto” di una parte di contenuto viene indicato come URL canonico dai motori di ricerca.

canonical_graphic_1024x630

Nota ironica

Canonico è un termine che deriva dalla tradizione cattolica romana, in cui un elenco di libri sacri è stato creato e accettato come autentico. Erano conosciuti come i Vangeli canonici del Nuovo Testamento. L’ironia è che alla chiesa cattolica romana ci sono voluti circa 300 anni e numerose lotte per arrivare a quella lista canonica, e alla fine hanno scelto quattro versioni della stessa storia …

Identificazione di problemi di contenuti duplicati

Potresti non sapere se hai un problema di contenuto duplicato sul tuo sito o con il tuo contenuto. L’utilizzo di Google è uno dei modi più semplici per individuare i contenuti duplicati.

Esistono diversi operatori di ricerca che sono molto utili in casi come questi. Se desideri trovare tutti gli URL del tuo sito che contengono la tua parola chiave X articolo, digita la seguente frase di ricerca su Google:

site: esempio.com intitle: “Keyword X”

Google ti mostrerà quindi tutte le pagine su esempio.com che contengono quella parola chiave. Più specifica è la parte intitle della chiave, più facile sarà eliminare i contenuti duplicati. Puoi utilizzare lo stesso metodo per identificare i contenuti duplicati sul Web. Supponiamo che il titolo completo del tuo articolo sia “Parola chiave X: perché è giusto per te”, dovresti cercare:

intitle: “Parola chiave X – perché è giusto per te”

E Google ti darebbe tutti i siti che corrispondono a quel titolo. A volte vale anche la pena cercare una o due frasi complete dal tuo articolo, poiché alcuni scrapers potrebbero cambiare il titolo. In alcuni casi, quando esegui una ricerca del genere, Google potrebbe mostrare un avviso come questo nell’ultima pagina dei risultati:

Questo è un segno che Google sta già “de-duplicando” i risultati. Non è ancora buono, quindi vale la pena fare clic sul collegamento e guardare tutti gli altri risultati per vedere se è possibile correggerne alcuni.

Ulteriori informazioni: Fai da te: verifica dei contenuti duplicati »

Soluzioni pratiche per contenuti duplicati

Dopo aver deciso quale URL è l’URL canonico del tuo contenuto devi iniziare un processo di canonicalizzazione (sì, lo so, prova a dirlo tre volte ad alta voce velocemente). Ciò significa che dobbiamo comunicare ai motori di ricerca la versione canonica di una pagina e farglielo trovare il prima possibile. Esistono quattro metodi per risolvere il problema, in ordine di preferenza:

Non creare contenuti duplicati
Reindirizzamento di contenuti duplicati all’URL canonico
Aggiunta di un elemento di collegamento canonico alla pagina duplicata
Aggiunta di un collegamento HTML dalla pagina duplicata alla pagina canonica

Evitare contenuti duplicati

Alcune delle cause di cui sopra per i contenuti duplicati hanno soluzioni molto semplici:

Ci sono ID di sessione nei tuoi URL?
Questi possono spesso essere disabilitati nelle impostazioni del tuo sistema.
Hai pagine duplicate stampabili?
Questi sono completamente inutili: dovresti semplicemente usare un foglio di stile di stampa.
Stai usando l’impaginazione dei commenti in WordPress?
Dovresti semplicemente disabilitare questa funzione (nelle impostazioni »discussione) sul 99% dei siti.
I tuoi parametri sono in un ordine diverso?
Di ‘al tuo programmatore di creare uno script per mettere sempre i parametri nello stesso ordine (questo è spesso indicato come una fabbrica di URL).
Ci sono problemi con i link di monitoraggio?
Nella maggior parte dei casi, puoi utilizzare il monitoraggio della campagna basato su hash tag invece del monitoraggio della campagna basato sui parametri.
Hai problemi con WWW e non WWW?
Scegline uno e mantienilo reindirizzando l’uno all’altro. Puoi anche impostare una preferenza in Strumenti per i Webmaster di Google, ma dovrai rivendicare entrambe le versioni del nome di dominio.
Se il tuo problema non è così facile da risolvere, potrebbe comunque valere la pena impegnarsi. L’obiettivo dovrebbe essere quello di impedire completamente la visualizzazione di contenuti duplicati, perché è di gran lunga la soluzione migliore al problema.

301 Reindirizzamento di contenuti duplicati
In alcuni casi, è impossibile impedire completamente al sistema che stai utilizzando di creare URL errati per i contenuti, ma a volte è possibile reindirizzarli. Se questo non è logico per te (cosa che posso capire), tienilo a mente mentre parli con i tuoi sviluppatori. Se elimini alcuni dei problemi di contenuto duplicato, reindirizza tutti i vecchi URL di contenuti duplicati agli URL canonici appropriati.

Utilizzo dei collegamenti

A volte non vuoi o non puoi sbarazzarti di una versione duplicata di un articolo, anche quando sai che si tratta dell’URL sbagliato. Per risolvere questo particolare problema, i motori di ricerca hanno introdotto l’elemento link canonico. Si trova nella sezione <head> del tuo sito e ha il seguente aspetto:

Questo processo è un po ‘più lento del reindirizzamento 301, quindi se puoi eseguire un reindirizzamento 301 sarebbe preferibile, come menzionato da John Mueller di Google.

Continua a leggere: rel = canonical • Cos’è e come (non) usarlo »

Collegamento al contenuto originale

Se non puoi eseguire nessuna delle operazioni precedenti, probabilmente perché non controlli la sezione <head> del sito in cui vengono visualizzati i tuoi contenuti, aggiungere un link all’articolo originale sopra o sotto l’articolo è sempre una buona cosa idea. Potresti volerlo fare nel tuo feed RSS aggiungendo un link all’articolo in esso contenuto. Alcuni scraper filtreranno quel collegamento, ma altri potrebbero lasciarlo attivo. Se Google rileva diversi link che rimandano al tuo articolo originale, scoprirà abbastanza presto che questa è la versione canonica effettiva.

Conclusione: il contenuto duplicato è risolvibile e dovrebbe essere corretto

I contenuti duplicati si verificano ovunque. Devo ancora incontrare un sito di più di 1.000 pagine che non abbia almeno un piccolo problema di contenuto duplicato. È qualcosa che devi tenere costantemente d’occhio, ma è risolvibile e le ricompense possono essere abbondanti. I tuoi contenuti di qualità potrebbero salire nelle classifiche, semplicemente eliminando i contenuti duplicati dal tuo sito!