Duplicate content : pourquoi c’est une mauvaise idée ?

La clé pour bien se faire référencer tient en deux mots : la qualité et, surtout, l’originalité. Vous le savez, les algorithmes des différents moteurs de recherche, de Google en particulier, analysent de plus en plus finement les contenus éditoriaux publiés sur vos sites, vos blogs ou vos plateformes de e-commerce. Dans leur collimateur, les textes dupliqués qui, lorsqu’ils sont détectés sur votre site, risquent d’handicaper votre positionnement sur les SERPs. Comment faire pour les identifier ? Nos conseils.

Qu’est-ce que le duplicate content ?

Un contenu dupliqué, ou duplicate content, est un contenu identique, un texte « copié-collé » par exemple, que l’on retrouve à plusieurs endroits sur le net. Ces contenus, pour être considérés comme véritablement dupliqués, doivent chacun être accessibles depuis une adresse URL différente (et ce, même si la différence est minime).

Google définit précisément ce qu’il considère comme un contenu dupliqué : « Le duplicate content désigne généralement des blocs substantiels de contenus, à l’intérieur d’un domaine ou dans des domaines différents, qui sont soit complètement identiques, soit très largement similaires ».

En pratique, comme le souligne la définition du célèbre moteur de recherche, on distingue deux types de contenu dupliqué :

Les contenus dupliqués internes, c’est-à-dire présents sur le même site. Il peut, par exemple, s’agir de deux fiches produit identiques sur un site d’e-commerce.
Plus préoccupant, le contenu dupliqué externe. Le contenu identique est accessible sur deux pages appartenant à des domaines différents. Il peut s’agir d’un plagiat pur et simple, pour essayer de tromper les moteurs. Il peut s’agir également d’une erreur involontaire, en oubliant par exemple de baliser correctement une citation (la balise blocknote pour les citations longues) ou dans le cadre d’une stratégie de link building mal gérée (passant notamment par des annuaires).

La publication de contenus dupliqués n’est pas toujours la faute des éditeurs : elle peut avoir des causes techniques. Ainsi, le mauvais paramétrage de certains Content Management System (CMS), en particulier WordPress, peut rendre un article disponible sous plusieurs URLs. Autres causes, la double indexation d’un site (avec ou sans www., http ou https), l’existence de plusieurs URLs pour la page d’accueil, ou la conservation d’une ancienne URL sans redirection après que cette dernière a été « réécrite ».

Quels sont les risques SEO liés aux contenus dupliqués ?

Depuis l’apparition de l’algorithme Panda chez Google en 2011, algorithme qui visait à lutter contre les fermes de contenus, il existe un vrai risque de voir votre référencement pénalisé si votre site concentre trop de duplications.

Un impact sur le classement dans les SERPs

Les moteurs ne sont pas nés de la dernière pluie… Ils savent pertinemment identifier les contenus dupliqués. Lorsqu’un moteur repère un duplicate content, interne comme externe, il va procéder à la vérification de l’origine de ce dernier. Conséquence directe : après avoir trouvé la page « source » du contenu original, les moteurs vont déclasser, voire désindexer, les pages qui se sont contentées de copier le contenu. Moins bien classées, invisibilisées sur les SERPs, vos pages ne produiront plus le trafic attendu vers votre site.

Outre le risque d’invisibilisation de vos pages, dupliquer un contenu peut par ailleurs, lorsqu’il s’agit d’un contenu dupliqué externe, vous exposer à des conséquences juridiques : on parle ici en effet de plagiat, qui constitue une infraction au droit d’auteur.

Pourquoi les moteurs n’aiment pas les contenus dupliqués ?

Pourquoi tant de haine ? Pour deux raisons simples. La première, c’est qu’indexer un contenu dupliqué constitue une source de travail supplémentaire pour les moteurs. En effet, les robots ont déjà beaucoup à faire pour indexer l’immensité du web pour que s’y ajoute l’analyse de contenus identiques. Pour les moteurs, il s’agit tout simplement d’une perte de temps, puisque le moteur va devoir identifier la source de ces contenus.

L’autre raison tient surtout à la philosophie des moteurs. Google, en particulier, met l’accent sur l’expérience de ses usagers : les contenus qu’il référence doivent apporter une information qualitative, à forte valeur ajoutée pour être considérés dignes d’apparaître dans les SERPs. Ce qui n’est pas le cas d’un contenu dupliqué.

Comment détecter les contenus dupliqués ?

Nous l’avons évoqué plus haut : en grande majorité, les contenus dupliqués ne sont pas intentionnellement publiés, relevant souvent d’un mauvais paramétrage technique. Pour vous assurer de ne pas publier de duplicate content, il existe quelques tests simples à effectuer.

Premièrement, en utilisant un outil gratuit, la Mozbar (uniquement compatible avec Chrome). Grâce à elle, vous pourrez en premier lieu vérifier que votre site n’est pas indexé sous plusieurs adresses. Pour détecter les différentes URLs par lesquelles ce dernier est accessible, il vous suffit de taper les différentes versions d’URL (avec ou sans www., http ou https) dans la Mozbar. Si vous pouvez accéder à votre site par plusieurs URLs sans redirections, c’est qu’il est dupliqué.

Outre la Mozbar, il existe des outils qui se concentreront sur les contenus que vous avez publiés :

la Google Search Console peut vous aider à identifier les contenus identiques sur votre site. Si vous utilisez cette plateforme, rendez-vous dans le menu « Apparences dans les résultats de recherche », puis sur « Améliorations HTML ». Vous aurez accès à un rapport qui vous indiquera les contenus dupliqués.

Comment détecter les contenus dupliqués ? — © Miguel Á. Padriñán – Licence Pexels

Comment éviter le duplicate content ?

La première solution pour éviter d’avoir à éliminer des contenus dupliqués sur votre site consiste à les « cacher » aux yeux des moteurs. Au niveau technique, quelques solutions efficaces peuvent être mises en place :

Paramétrez correctement votre CMS de manière à ne pas rendre accessibles vos contenus sous plusieurs adresses. Par ailleurs, certains plugins, tel que Yoast SEO pour WordPress, permettent d’indiquer aux moteurs quelles sont pages à ne pas indexer : assurez-vous d’y lister celles qui proposent un contenu dupliqué.
Travaillez les redirections sur votre site. Renvoyez, notamment grâce à une redirection « 301 », la page qui publie un contenu dupliqué vers la page du contenu d’origine. En accompagnant ainsi les robots indexeurs, vous faciliterez leur travail et, par conséquent, vous améliorerez le positionnement de cette page sur les SERPs.
Faites le choix d’une URL canonique : si certaines de vos pages sont accessibles grâce à plusieurs URLs, indiquez au moteur où sont les contenus originaux. Insérée dans le code source, la balise rel=canonical indique aux moteurs de recherche la seule URL à considérer dans l’ensemble des pages aux contenus identiques. L’usage de cette balise est également un bon moyen de contrer les effets négatifs des contenus dupliqués.

Une autre solution pour éviter les duplicate contents consiste à ne pas en écrire, en développant une véritable stratégie éditoriale basée sur des contenus originaux. On le sait, surtout quand on ne dispose pas d’une équipe dédiée à la communication, il peut être tentant de rogner sur l’éditorial en copiant-collant certains contenus (fiche produit, meta-description, articles saisonniers…).

Au long cours, ce manque d’investissement éditorial risque d’impacter durablement votre référencement. En somme, si vous séchez pour écrire, que vous n’avez pas de temps de vous pencher sur vos contenus, pourquoi ne pas vous faire accompagner ? N’en doutez pas, une agence éditoriale web saura répondre à tous vos besoins.

Vos contenus sont-ils efficaces ?

Déterminez votre positionnement sur des mots clés.

Découvrez nos baromètres sectoriels !

Un outil exclusif de veille sectorielle : comparez votre stratégie éditoriale et SEO aux plus performantes de votre secteur.

Intéressés par nos services éditoriaux ?

Prendre rendez-vous