Optimisation SEO d'un média / site d'actualités - Analyse du référencement du Canard enchaîné

Né en 1915, Le Canard enchaîné est un vieux journal. Pourtant, paradoxalement, il n’a lancé son site internet qu’en 2020, puis une nouvelle version beaucoup plus complète en septembre 2024 seulement, sur laquelle on retrouve désormais tous les articles du journal.

La mise en ligne d’un nouveau site média est toujours passionnante en tant que professionnel du référencement naturel. Elle permet de partir d’une feuille blanche et de poser d’emblée les bonnes pratiques SEO pour un site dont le nombre de pages va très vite grossir semaine après semaine (Le Canard est un hebdomadaire), surtout si les archives sont également mises en ligne.

Dans cet article, je m’intéresse ainsi aux partis pris et optimisations SEO en place sur cette nouvelle version du site du Canard Enchaîné. On y parle basiques SEO, mais aussi cloaking et obfuscation de liens.

Le site propose plusieurs templates de page, que je vous propose d’analyser l’un après l’autre pour les principaux :

Article
Thématique (catégorie)
Auteur (journaliste)
Dessinateur
Tag

Chaque template a en effet des enjeux spécifiques, avec quelques problématiques intéressantes et classiques en SEO :

Comment gérer paywall et SEO ?
Comment gérer la pagination sur un site média avec des milliers d’articles ?
Comment créer des pages auteur « SEO friendly » ?
Comment gérer les tags ?

Page article : comment gérer paywall et SEO ?

Le template article est bien sûr LE template essentiel sur le site d’un journal. Regardons de plus près celui du Canard.

Title et meta description

Côté title, on remarque le format suivant sur tous les articles :
[Pré-titre] : [Titre] | [Nom du journal]

Le title n’embarque pas seulement le titre de l’article, mais aussi le pré-titre qui le précède. Peut-être une façon d’ajouter des informations plus concrètes (et donc plus « SEO friendly ») à un titre qui – journal satirique oblige – est souvent constitué d’un jeu de mots ? La même logique a d’ailleurs été adoptée pour la balise H1 (cf ci-dessous).

La meta description est une reprise du chapô (le texte introductif en gras), mais on peut voir qu’elle est tronquée au-delà d’un certain nombre de caractères.

La page – sur mobile comme sur desktop – commence par un fil d’Ariane avec du maillage interne remontant vers la page d’accueil et la thématique (catégorie) à laquelle est rattaché l’article. Il n’y a qu’un seul niveau d’arborescence pour les rubriques. On retrouve juste en-dessous un nouveau lien interne vers la page thématique (ici « Economie »).

Sur mobile, un bloc juste avant le chapô permet de retrouver les boutons de partage de l’article sur les réseaux sociaux. Ce bloc est affiché en sticky à gauche sur desktop lorsque l’on scrolle.

Balisage Hn

Côté balisage Hn, la logique hiérarchique est respectée :

Le H1 englobe donc à la fois le pré-titre et le titre de l’article (mais pas le nom de la thématique, positionnée juste à gauche sur la même ligne que le pré-titre)
Le chapô est dans un H2
On retrouve un autre H2 plus bas sur la page pour introduire un bloc de maillage interne vers 3 autres articles (« Sur le même sujet »)

Pas de balisage en H2 en revanche sur le bloc « Le choix de la rédaction », visuellement similaire à « Sur le même sujet ».

Des articles derrière un paywall : un début d’article accessible pour l’utilisateur, mais la totalité pour Google

Le Canard enchaîné est un journal payant. Aussi, tous ses articles sont accessibles derrière un paywall (il faut être abonné et se connecter pour lire la totalité de l’article). Cependant, le début de l’article peut être lu sans être abonné : en plus du chapô, un à trois paragraphes sont ainsi accessibles sans avoir à être abonné. Un nombre qui varie vraisemblablement selon la longueur de l’article : plus l’article est long, plus il y a de paragraphes accessibles sans abonnement. A noter que l’article est toujours tronqué à la fin d’un paragraphe, jamais en plein milieu d’une phrase.

Conserver une partie de l’article accessible sans abonnement pourrait être un choix SEO, afin de proposer un minimum de contenu à Google sur la page. Ce n’est toutefois pas le cas, car Google a bien lui accès à la totalité de l’article. Quelle méthode de blocage du contenu payant Le Canard a-t-il alors choisie ?

Un blocage front (en CSS ou en JS) ?
Un blocage serveur ?

Pas de méthode front, puisque le contenu payant n’est pas présent dans le code source de la page.

Cependant, lorsque l’on utilise l’outil de test des résultats enrichis de Google pour inspecter la page, on retrouve bien l’intégralité du contenu.

Exemple : le contenu gratuit de l’article ci-dessus s’arrête à « ces dernières semaines ». En utilisant l’outil d’inspection de Google, on retrouve la suite, c’est-à-dire la partie payante derrière le paywall, dans le code source (et sur la capture d’écran).

Et ce contenu payant est bien indexé par Google :

Une forme de cloaking – mais tout à fait autorisée par Google grâce à l’utilisation des bonnes données structurées, comme on va le voir juste après – qui permet d’envoyer à Google l’intégralité du contenu de l’article.

Données structurées

3 types de données structurées sont présents sur une page article, à chaque fois en JSON-LD :

BreadcrumbList pour le fil d’Ariane
WebPage, avec les propriétés suivantes :
- lastReviewed pour indiquer la date à laquelle le contenu de la page a été modifié pour la dernière fois
- relatedLink, avec les URL des 3 articles du bloc « Sur le même sujet » (oups, ce sont encore les liens de pré-prod dans les données structurées)
NewsArticle, pour toutes les données structurées liées à l’article, qui sont celles qui nous intéressent le plus ici

Une première question m’a intéressé : comment est géré le balisage des images ? En effet, la propriété image, si elle n’est pas obligatoire, est recommandée. Or, Le Canard Enchaîné n’a aucune photo d’illustration sur ses articles. Seuls certains articles sont illustrés par un dessin, qui est alors utilisé le cas échéant.

Et quand il n’y en a pas ? C’est alors la même image générique qui est utilisée sur tous les articles.

Autre point intéressant concernant les données structurées : la gestion du paywall. Les données structurées pour le contenu accessible par abonnement ou soumis à un paywall sont bien en place.

Et on retrouve bien dans la propriété « articleBody » tout le contenu de l’article, alors que celle-ci est vide en front.

De même, la partie payante du contenu remonte bien en passant par l’outil d’inspection de Google, alors qu’elle renvoie le texte par défaut du paywall en utilisant l’outil de validation de Schema.org.

Comme on l’a vu ci-dessus, c’est donc une forme de cloaking (on présente un contenu différent à l’internaute et au moteur de recherche), mais qui n’est pas considérée comme tel par Google dans le cas d’un paywall grâce à l’utilisation des données structurées.

Rappelons que l’outil de test des résultats enrichis de Google – comme l’outil d’inspection dans Search Console – utilise désormais l’user-agent « Google-InspectionTool », et non « Googlebot » qu’il imite. Ici, Google-InspectionTool ne semble donc pas avoir été bloqué, alors que Le Canard ne s’est pourtant pas contenté d’un cloaking basique sur l’user-agent Googlebot. Le paywall est d’ailleurs – a priori – fourni par Poool, qui a rédigé à ce sujet un très bon article sur les paywalls et le SEO.

Du maillage interne vers la page auteur et des pages tag

Outre le maillage interne vers 3 autres articles dans le bloc « Sur le même sujet », on note aussi juste au-dessus du maillage interne :

Vers la page de l’auteur de l’article
Vers des pages tags

Nous allons avoir l’occasion de regarder plus en détails ces templates de page par la suite.

Page thématique : la pagination, un véritable enjeu

Les pages thématiques sont des catégories d’articles : elles permettent, comme leur nom l’indique, de classer les articles selon leur thématique (politique, économie, international, etc.).

Elles commencent par un fil d’Ariane, suivi d’une liste d’articles – dont 3 sont mis en avant en haut de page.

Title et meta description

Un modèle par défaut de title semble avoir été mis en place, selon ce format :
[Thématique] – Les dernières infos et enquêtes du Canard enchaîné

Par exemple :

Économie – Les dernières infos et enquêtes du Canard enchaîné
Défense – Les dernières infos et enquêtes du Canard enchaîné
Sport – Les dernières infos et enquêtes du Canard enchaîné

Pourtant, sur certaines pages thématiques, le title a fait l’objet d’une optimisation spécifique, qui semble traduire la volonté de se positionner sur des mots clés de type « actualité [thématique] » :

Actualité médias – Radio, TV, presse, numérique | Le Canard enchaîné
Actualité environnement et écologie | Le Canard enchaîné

La meta description commence elle généralement par un modèle générique, mais a été personnalisée pour chacune des thématiques :

Articles, enquêtes et vidéos du Canard enchaîné sur la thématique Politique : élections, nouveau gouvernement, débats, coulisses…
Articles, enquêtes et vidéos du Canard enchaîné sur la thématique Société : féminismes, éducation, logement, services publics, urbanisme…
Articles, enquêtes et vidéos du Canard enchaîné sur la thématique Sport : football, rugby, tennis, Jeux olympiques, dopage…

Balisage Hn

Côté balises Hn, seul le titre de la thématique a été balisé (avec un H1).

Quelle gestion de la pagination ?

La pagination est un élément important à optimiser en SEO dès lors que l’on travaille sur un site ayant plusieurs centaines ou milliers de pages (site e-commerce avec des centaines ou milliers de produits, site de contenu avec une forte volumétrie de pages, etc.). C’est donc également un point clé pour le site du Canard. En effet, même si le site ne totalise pour l’instant qu’à peine un millier d’articles en ligne, ce chiffre est très vite destiné à grossir, avec l’ajout chaque semaine de plusieurs dizaines de contenus – et potentiellement la mise en ligne d’archives.

Si ce point n’a pas été anticipé, le risque est de se retrouver avec des articles à des niveaux de profondeur très importants, que Google risque de ne jamais atteindre, et qui perdront donc en visibilité dans les résultats de recherche – voire seront désindexés.

Comment cet aspect a été géré sur le site du Canard ?

Tout d’abord, chaque thématique liste 60 articles. Cela permet évidemment de limiter le nombre de pages de pagination générées (ces pages n’ayant pas vraiment de plus value SEO). Ces pages de pagination sont bien évidemment indexables.

A noter que le titre de page (H1), le title et la meta description reprennent le numéro de la page en cours.

Le maillage interne vers les pages de pagination se fait depuis un bloc en page de page.

Pour l’instant, le nombre d’article en ligne dans chaque catégorie thématique ne permet pas de dire si un maillage interne optimisé a été mis en place pour la pagination, c’est-à-dire un maillage interne qui limite les niveaux de profondeur. En effet, qu’en sera-t-il dès lors qu’il y a aura plusieurs centaines de pages de pagination ? Comment va évoluer le niveau de profondeur des articles les plus anciens ? Des mécanismes existent pour gérer le maillage interne vers les pages de pagination de manière à réduire le niveau de profondeur des articles listés par ces pages.

Nul doute que cette problématique a déjà été anticipée, et il sera intéressant de revenir parcourir le site dans plusieurs semaines ou mois pour regarder cela.

Page auteur

Le Canard a choisi de créer et d’indexer des pages auteur pour ses journalistes. Cette typologie de pages est souvent un piège sur certains CMS (comme WordPress), car elle n’est souvent pas utilisée de façon optimale pour le SEO.

Là, le Canard enchaîné a bien sûr travaillé l’optimisation SEO de ces pages, avec généralement un contenu propre à chaque page auteur :

Image (caricature du journaliste)
Présentation du journaliste

S’ensuit la liste des articles publiés par le journaliste, avec une pagination fixée à 50 articles par page.

Puis un bloc de maillage interne vers les pages auteur de tous les autres journalistes.

Le title et la meta description ont été optimisés, avec l’objectif de se positionner sur le nom du journaliste.

A noter que si certains articles sont bien signés du nom d’un journaliste, il n’y a parfois pas de lien interne vers sa page auteur – que ce soit en haut ou en bas de l’article.

Pourtant, la journaliste en question a bien une page auteur, qui est d’ailleurs indexée par Google… mais semble orpheline. L’URL est juste précisée dans les données structurées NewsArticle de la page article.

Page dessinateur

De la même manière que chaque journaliste a sa page, le site propose aussi une page dédiée à chaque dessinateur.

On y retrouve :

Le nom du dessinateur, balisé par un H1
Une petite biographique, dont une partie est masquée par défaut si le texte est trop long
Deux sections dont le titre est balisé par un H2 :
- Les dessins, avec la liste des 4 dernier dessins du dessinateur consulté
- Les articles, avec la liste des derniers articles illustrés par ce dessinateur

Un clic sur un dessin permet de l’ouvrir en grand format, en restant sur la même page (pas de nouvelle page créée pour chaque dessin, ce qui conduirait à générer beaucoup de pages très pauvres en contenu).

Les images sont au format WebP, qui offre une meilleure compression que le JPEG ou le PNG.

A noter également un lien interne vers une page qui permet de consulter tous les dessins du dessinateur. Il s’agit là d’un autre template de page, qui ressemble d’ailleurs beaucoup en l’état au template dessinateur (la biographie et la liste des articles en moins), puisqu’il faut se connecter pour voir plus que les trois dessins présentés.

Page tag

Ah, les pages tag ! Lors d’audit SEO de sites sur WordPress, je constate que les tags (ou étiquettes) sont souvent très mal utilisés. En effet, alors que ces pages tags – qui listent tous les articles auxquels on a rattaché le même tag – devraient fournir une véritable navigation transverse à l’internaute, bien souvent :

Elles sont en doublon avec les catégories existantes
Elles sont en doublon entre elles (tags créés avec des noms proches ou identiques)
Elles sont pauvres en contenu (tag rattaché à un seul article)
Etc.

Bref, les tags n’ont souvent aucun intérêt pour le référencement, et font d’ailleurs souvent plus de mal au SEO qu’autre chose, avec des pages en contenu dupliqué et/ou très pauvres en contenu.

Evidemment, il n’en est rien sur le site du Canard, sur lequel ces tags jouent pleinement leur rôle de navigation transverse, avec comme nous l’avons vu un maillage interne depuis la fin de chaque article.

Ces pages sont toutes construites sur le même modèle de title, meta description et titre H1, avec l’objectif de se positionner sur des recherches en lien avec le tag :

Title : [Tag] : tous les articles concernant [Tag]
Meta description : [Tag] sur le Canard enchainé : liste complète de tous les articles concernant [Tag]
H1 : Articles sur le thème [Tag]

Il existe en l’état 135 pages tag. Il serait très intéressant de connaître les recommandations données aux journalistes concernant l’utilisation de ces tags et la création de nouveaux tags :

Comment s’assurer de ne pas créer des tags en doublon (par exemple, un tag « PS » et un tag « Parti Socialiste », ou un tag « Sarkozy » et « Nicolas Sarkozy ») ?
Comment s’assurer de ne pas créer des tags en doublon avec les thématiques existantes ?
Comment s’assurer de ne pas créer des tags qui ne seront rattachés qu’à un seul article ?

On voit par exemple aujourd’hui que certains tags ne listent qu’un seul article :

Et certains articles n’ont aucun tag, alors qu’il existe des tags pertinents qui pourraient leur être associés. Par exemple, aucun tag n’est rattaché à l’article « Les assistés parlementaires de Marine Le Pen », alors même qu’il existe les tags « Marine Le Pen », « Rassemblement national » et « Extrême-droite ».

D’où l’importance de bien sensibiliser les journalistes à l’utilisation de ces tags car, à long terme, leur usage peut vite s’avérer assez anarchique.

Des liens en footer obfusqués, comme les liens externes

Le footer est identique sur toutes les pages du site. Avec une particularité : à l’exception des liens de la section « Coeur de Canard », tous les autres liens ont été obfusqués. Il s’agit de liens :

Vers la boutique (sur un autre sous-domaine)
Vers les réseaux sociaux
Vers les pages de l’application mobile sur l’App Store et Google Play
Vers les pages légales

Pas de lien au format <a href> donc, mais une balise <button> dans une balise de formulaire, avec un attribut « value » dont la valeur permet de renvoyer vers la page demandée.

Une technique qui permet de mieux orienter la popularité interne vers les pages utiles du site plutôt que vers les pages légales ou vers l’extérieur (réseaux sociaux, stores), sachant que ces liens se retrouvent sur l’ensemble des pages du site.

La page de mentions légales, qui n’est pourtant pas en noindex, n’a ainsi pour l’instant pas été indexée par Google.

A noter que, depuis les fiches des dessinateurs, les liens externes (vers leur site personnel, leur compte Instagram) ont aussi été obfusqués.

robots.txt : du classique

Côté robots.txt, du classique :

Les URL des pages de résultats de recherche sont bloquées à l’exploration
Les user-agent associés à des outils d’intelligence artificielle (ChatGPT, Claude, Anthropic) sont bloqués
Les URL du sitemap XML et du sitemap XML spécifique à Google Actualités sont précisées

Sitemap XML : un sitemap Google Actualités, et un sitemap unique pour toutes les URL

Le site du Canard enchaîné propose deux sitemaps :

1. Un sitemap spécifique à Google Actualités

Si Google recommande de ne lister que les URL des articles récents (deux derniers jours), et de supprimer les URL des articles plus anciens (ou de supprimer les métadonnées les métadonnées <news:news>), il n’en est rien pour le sitemap Google Actualités du Canard, qui liste des articles ayant plus d’une semaine.

2. Un sitemap classique

On retrouve également un sitemap XML classique, qui liste en un seul fichier l’ensemble des URL du site.

Si celui-ci s’avère suffisant en l’état, les bonnes pratiques du protocole Sitemap fixent à 50 Mo ou 50 000 URL la taille d’un sitemap. Un chiffre que Le Canard pourrait rapidement atteindre, et qui nécessiterait alors la création d’un fichier d’index de sitemaps. On pourrait ainsi envisager d’avoir des sitemaps par typologie de pages, et/ou par thématique d’article, et/ou par date de publication d’article.

Ceci aurait également un intérêt pour surveiller l’indexation des pages sur Google Search Console, avec des données sur l’indexation au niveau de chaque fichier sitemap individuel, et donc par typologie de page ou par date de publication d’article.

Quel futur maillage interne vers les archives ?

Le Canard enchaîné indique sur son site que celui-ci s’enrichira prochainement d’archives. Si les anciens articles sont mis en ligne, ajoutés à tous les nouveaux articles produits, le site va vite totaliser plusieurs milliers de pages de contenu. Comment alors s’assurer de la bonne exploration et indexation de ces pages par Google ?

De nombreux sites médias ont mis en ligne des pages archives avec un maillage interne optimisé, de manière à diminuer les niveaux de profondeur vers tous leurs anciens articles.

C’est le cas par exemple du journal Le Monde, avec des pages qui listent tous les articles publiés par date, avec un système de maillage interne par année, mois et jour.

Même chose également pour Le Parisien, avec des pages par année et par date :

Comment va évoluer le site du Canard de ce point de vue ? Il sera intéressant de regarder cela lorsque le volume de pages de contenu en ligne aura augmenté.

Conclusion

Le Canard enchaîné constitue un bon cas d’école sur plusieurs aspects d’optimisation SEO :

Mise en place d’un paywall adapté aux contraintes SEO tout en étant difficilement contournable pour l’utilisateur
Utilisation des pages auteur et des pages tag
Gestion de la pagination

Il sera intéressant de voir comment le site va évoluer sur certains points (maillage interne vers les pages de pagination, sitemap XML, etc.) dès lors que le nombre de pages de contenu aura fortement augmenté.

Virginie Clève dit :

3 octobre 2024 à 15 h 19 min

Bonjour Nils, merci beaucoup pour cette analyse. Je sors du bois, c’est moi qui m’occupe du SEO du Canard 🙂 Merci pour le debug aussi. Certaines choses sont déjà en cours de correction, on en découvre d’autres avec ton article, j’ouvre les tickets de ce pas !
J’en profite pour partager : l’audience Discover commence à arriver, et 99% du site est déjà indexé au bout d’une semaine. Ce lancement se passe très bien, mais comme tu l’as remarqué, on a beaucoup travaillé afin que ce soit le cas. Effectivement, ce n’est que le début. Pour la pagination, on a effectivement anticipé le point. A bientôt. Virginie

Nils Talibart dit :

4 octobre 2024 à 9 h 15 min

Merci beaucoup pour ton commentaire et ces précisions Virginie ! Je me suis douté, à voir tes tweets, que tu avais dû travailler sur le sujet. Et qu’avec ton expérience, le résultat devait être à la hauteur.
Bravo pour ce superbe travail !
Et hâte d’avoir un retour d’expérience à l’occasion peut-être d’une prochaine conférence 🙂

Quelle optimisation SEO pour un journal qui se lance sur le web ? J’analyse le référencement du nouveau site du Canard enchaîné

Page article : comment gérer paywall et SEO ?

Title et meta description

Balisage Hn

Des articles derrière un paywall : un début d’article accessible pour l’utilisateur, mais la totalité pour Google

Données structurées

Du maillage interne vers la page auteur et des pages tag

Page thématique : la pagination, un véritable enjeu

Title et meta description

Balisage Hn

Quelle gestion de la pagination ?

Page auteur

Page dessinateur

Page tag

Des liens en footer obfusqués, comme les liens externes

robots.txt : du classique

Sitemap XML : un sitemap Google Actualités, et un sitemap unique pour toutes les URL

1. Un sitemap spécifique à Google Actualités

2. Un sitemap classique

Quel futur maillage interne vers les archives ?

Conclusion

Laisser un commentaire

Laisser un commentaire