Une étude de 2015 de Raven Tools révélait qu’environ 29% des pages indexées contenaient du duplicate content. Le duplicate content (littéralement « contenu dupliqué ») désigne le fait pour un même contenu d’être accessible via plusieurs URL. Au sens strict, il s’agit d’une duplication à l’identique (code html + textes) d’une page web, mais on considère aussi comme du duplicate content le fait que des fragments de textes substantiels soient dupliqués (« near duplicate »).
L’ennemi du Web numéro 1
Quel que soit le type de contenu en double, il est particulièrement redouté dans le monde du référencement. En effet, bien qu’il ne soit pas techniquement une pénalité, le copié-collé peut parfois avoir un impact sur le classement des moteurs de recherche, d’autant plus que sa volumétrie est importante : lorsqu’il existe plusieurs éléments de contenu sensiblement similaire à plusieurs emplacements sur Internet, il peut en effet être difficile pour les moteurs de recherche de décider quelle version est la plus pertinente pour une requête de recherche donnée.
Au pire des cas, ne sachant pas quel contenu offre un classement plus élevé, le moteur de recherche pourrait décider de ne classer aucune de ces pages présentant le même contenu. Ne pas apparaître sur la première page d’une recherche peut être préjudiciable mais vous comprendrez que n’apparaître nulle part peut être véritablement problématique.
Les autres problèmes posés par le duplicate content sont la dilution de la popularité (pagerank) et l’épuisement du budget crawl. En effet, les moteurs de recherche allouent un certain temps à l’indexation d’un site. Le temps passé à crawler de multiples fois les mêmes pages sous des URL différentes est du temps perdu qui n’est pas passé à crawler d’autres pages plus utiles pour le référencement.
Quelles sont les sources de duplicate content ?
La majorité des cas de contenus en double ne sont pas intentionnels et il est très probable que vous ayez des doublons sur votre site Internet.
Les sources courantes de contenu dupliqué sont :
- Noms de domaine localisés par pays ou langue (site.com et www.site.ma), même s’ils appartiennent à la même société
- Sous-domaines multiples (site.ma et site.ma)
- Mauvaise canonisation de la page d’accueil et des répertoires (site.ma et www.site.ma/index.php)
- Maintenance de deux versions http:// et https:// d’un site avec un contenu identique
- Identifiants de sessions passés dans les URL (site.ma/index.php?sid=123)
- Inconsistances dans l’ordre des paramètres, notamment dans le cas de navigation à facettes (site.ma/page.php?couleur=rose&taille=44 et www.site.ma/page.php?taille=44&couleur=rose)
- Réécriture d’URLs sans redirection (site.ma/chemise-rose.php et www.site.ma/produit.php?type=chemise&color=rose)
- Versions de pages alternatives telles que m.site.ma ou pages AMP
Enfin, le duplicate content se produit souvent avec les descriptions de produits sur les boutiques en ligne. Face à des déclinaisons couleurs ou tailles, les e-commerçants ne se donnent en effet pas la peine d’écrire des descriptions de produits pour chaque produit.
Comment identifier le duplicate content ?
Il existe de nombreux outils pour identifier les contenus en double.
L’un des vérificateurs de duplicate content les plus connus est probablement CopyScape.com. Cet outil gratuit a une prise en main facile : insérez un lien dans le champ recherche de la page d’accueil et CopyScape renverra un certain nombre de résultats, présentant des parties dupliquées, ainsi qu’un pourcentage de doublonnage (ce qui donne une idée de la gravité du duplicate content). CopyScape n’affiche pas l’intégralité des résultats pour une page. Si vous souhaitez approfondir l’analyse de votre duplicate content, CopyScape propose également une version premium.
Siteliner est un outil qui, lui, recherche le duplicate content interne (sur votre propre site). Du contenu interne dupliqué ? Cela se produit très fréquemment lorsqu’un blog WordPress n’utilise pas d’extraits mais affiche l’intégralité de l’article de blog sur la page d’accueil du blog. L’article en question est dont disponible sur au moins deux pages : la page d’accueil et la page article elle-même. Et c’est probablement aussi le cas sur les pages de présentation des catégories et des balises : c’est donc déjà 4 versions du même article sur votre site Web.
Si vous souhaitez approfondir l’analyse de votre contenu dupliqué, Duplichecker, Plagspotter ou encore Smallseotools offrent de nombreuses fonctionnalités gratuites.
Des outils premium payants proposent de vérifier les contenus copiés-collés à l’aide d’algorithmes avancés : Grammarly, Plagiarismcheck et Plagium.
Comment résoudre les problèmes de duplicate content interne ?
Il existe de nombreuses options pour résoudre les problèmes de duplicate content.
Elles tiennent fondamentalement en 4 scénarios :
- Supprimer le contenu en double avec la balise Noindex : la balise noindex peut être particulièrement utile pour traiter le contenu en double. Ajoutée à l’entête html de chaque page individuelle, elle indique les exclusions de l’indexation des moteurs de recherche.
- Mettre à jour le contenu en double : adoptez une approche éditoriale pour éviter le duplicate content en corrigeant vos contenus afin que chaque page propose des articles originaux. N’hésitez pas à faire appel à des rédacteurs web professionnels, qui sauront vous conseiller dans la réécriture de contenus existants.
- Rediriger le contenu en double avec les redirections 301 : dans la plupart des cas, la meilleure façon de lutter contre le duplicate content est d’empêcher l’affichage de certaines versions de page alternatives et de configurer des redirections 301 de la page en double vers la page de contenu d’origine, pour qu’elles cessent de se faire de la concurrence.
- Spécifier l’autorité avec les balises canoniques : chaque fois qu’un contenu peut être identifié sur plusieurs URL d’un même site, il doit être canonisé pour les moteurs de recherche. Les balises canoniques rel = canonical sont utilisées pour indiquer qu’une page donnée doit être traitée comme une copie d’une URL spécifiée, et que tous les liens et pageranks doivent être crédités à la page spécifiée. La Search Console de Google permet aussi de définir le domaine préféré de votre site (ex : site.ma ou site.ma). Cependant, cette configuration ne fonctionnera que pour Google et n’affectera pas la manière dont Bing ou d’autres moteurs de recherche pourraient éventuellement interpréter votre site.
On a copié mon contenu. Que faire ?
Si vous être responsable du contenu dupliqué (de manière consciente ou accidentelle), vous n’aurez en fait des ennuis avec le moteur de recherche que si vous êtes engagé dans des « pratiques trompeuses ». Si elles sont signalées, cela pourrait cependant entraîner la suppression complète de votre site des résultats du moteur de recherche.
Si, réciproquement, vous pensez que quelqu’un d’autre a volé vos contenus, contactez le propriétaire du site web qui a publié ces contenus et indiquez-lui que vous avez trouvé vos contenus sur son site. Celui-ci peut ne pas être conscient que du contenu volé a été ajouté à son site alors accordez-lui le bénéfice du doute et laissez-le supprimer ce contenu. Si malgré vos demandes le contenu n’est pas supprimé, vous pouvez demander à Google de le supprimer de ses résultats de recherche pour violation du droit d’auteur.
S’il s’agit d’un site de haute qualité, donnez-leur la possibilité de conserver votre contenu en vous donnant crédit en tant qu’auteur et en intégrant un lien vers votre site. Une autre option consiste à proposer d’écrire un article révisé, lui aussi en échange d’un lien.