Le duplicate content c’est quoi ?



Le duplicate content est une sanction imposée par Google et Yahoo pour les pages qui affichent un contenu identique accessible via des Urls différents. Cet acte pourrait être involontaire ou intentionnel mais il a un effet négatif sur le positionnement du site ou des pages web en question. Si les moteurs de recherche tirent la sonnette d’alarme sur cette pratique, c’est qu’ils visent premièrement à assainir leur index et aussi à inciter les propriétaires des sites web à mettre en ligne des contenus uniques. Voici une liste non exhaustive des cas de duplication de contenu.

Ce qu’on voit le plus souvent.

Le plus courant de duplicate content non voulu dû à une erreur de débutant, c’est l’oubli de paramétrage d’un site avec ou sans www. Or, il est nécessaire de faire la redirection propre des urls dans le .htaccess et signaler aussi à Google search console si les visiteurs peuvent accéder au site via http ou https.
Il arrive également que lorsqu’on vient de mettre en ligne un template cms, wordpress ou autre, on fait une faute d’étourderie. A titre d’exemple, on crée une page en y ajoutant un article ou un produit et on le met dans une catégorie. Plus tard, on poste le même produit dans une autre catégorie. Lorsque les moteurs crawlent les pages, ils trouvent deux contenus semblables qui pointent vers deux noms de domaines différents. L’un d’eux sera alors classé comme duplicate content. A noter que le contenu dupluqué interne peut concerner un paragraphe, un passage ou la totalité d’un article. Un autre exemple, lors de la restructuration d’un site, il est possible qu’un changement d’arborescence soit opéré. Or, si les deux Urls sont conservées, les algorithmes vont détecter une duplication.
Il en est aussi de cas de sites en html conçu à la main ou des sites dynamiques. Quand on a un côté flemmard, il suffit de copié-coller les balises titres et méta descriptions sur toutes les pages. Travail vite fait mais Google ne trouvera pas le rendu à son goût. Dans le cas de pages identiques, seule la page estimée « pertinente » et à l’origine du contenu qui sera indexée. A noter ainsi que la pénalisation ne s’applique pas souvent à l’ensemble d’un site qui produit de textes dupliqués mais seulement à la page « fautive ». Excepté dans le cas où Google estime que les articles sont pillés.
Il en est de même des cas où le fichier word sur lequel on a travaillé est pollué car on y a copie-coller des extraits d’articles sur un site web. En vérifiant le taux du duplicate content, on est étonné du taux élevé de similarité. C’est pourquoi, il est conseillé de travailler sur le bloc note ou sur un nouveau dossier word afin d’éviter la pollution.

Les autres cas possibles.

Les référenceurs black hat font aussi volontairement cette pratique douteuse. Et pour se prémunir contre le filtrage des moteurs de recherche, ils ont recours au content spinning. On enregistre également du contenu en double dû aux voleurs de contenu. Ce sont des propriétaires de sites qui ne veulent pas se casser la tête à rédiger des articles uniques. Cela arrive souvent dans la description des fiches produits sur les sites e-commerce en ligne. Sinon, lorsqu’on reprend des extraits de wikipedia ou d’autres citations d’un site sans la balise de citation, l’acte sera aussi considéré comme duplucation de contenu.

Comment éviter le duplicate content ?

  • Les webmasters utilisent la balise meta canonical pour indiquer aux moteurs de recherche que le contenu existe déjà sur une autre Url.
  • En cas de changement d’Url, il importe de revoir le sitemap qu’on a envoyé à Google.
  • On ne doit pas aussi oublier d’effectuer une redirection 301 lorsque deux Urls différentes permettent d’accéder à la même page.
  • Enfin, avant de poster un article, il est préférable de soumettre son texte chez les sites de références en détection de plagiat comme copyscape, siteliner, positeo duplicate content etc.
It's only fair to share...Share on Facebook
Facebook
Share on Google+
Google+
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin

2 Comments

  • catalina 2 novembre 2017 at 12 h 12 min

    Merci pour cet article intéressant.

    Est-ce qu’il y a du contenu dupliqué pour les photos

    Reply
    • holy 11 mars 2018 at 8 h 36 min

      oui, mais les moteurs de recherche ne pénalisent pas jusqu’à maintenant !

      Reply

Leave a Comment

Why ask?