Comment identifier un bon ou mauvais profil de liens ?


 

Avec l’avènement de l’algo Penguin de Google, le netlinking est devenu une pratique risquée. Il est maintenant indispensable de développer ses backlinks avec prudence et intelligence. Eviter l’excès de liens dits « non naturels », l’abus d’optimisation des ancres, et surtout plus que jamais viser la qualité plutôt que la quantité. Il m’arrive très régulièrement de voir au cours d’un audit de référencement des profils de liens catastrophiques… Voici un guide détaillé d’une procédure possible pour auditer un profil de liens et quelques exemples de tels profils. Ce n’est pas la seule façon de procéder, et beaucoup d’autres facteurs peuvent être mesurés pour effectuer une telle analyse, mais cela donne un aperçu général.

 

Récupération des données

Il existe au moins cinq sources majeures de link data : Moz, Majectic SEO, Ahref, Google Webmaster Tools et Bing Webmaster Tools. Les trois premiers sont payants, et vous devez être le propriétaire du site (ou avoir un accès à ses comptes Webmaster Tools) pour utiliser les deux derniers. Pour avoir un aperçu rapide, une quelconque de ces sources suffit. En revanche pour effectuer un audit approfondi, par exemple pour un site vraissemblablement pénalisé par Penguin, plus les sources de données sont variées plus elles seront complètes car aucun ne fourni une liste exhaustive des liens existant vers un site. Même si officiellement Matt Cutts (responsable de l’équipe anti-spam de Google) prétend que seules les données de Webmaster Tools sont suffisantes, dans la pratique ce n’est pas vraiment le cas. Une fois qu’une liste de liens a été obtenue grâce à l’une de ces sources, plusieurs voies sont possibles :

  • Analyser les domaines seulement ;
  • Analyser les pages et les liens en détail ;
  • Effectuer les deux types analyses.

Encore une fois, lors d’un audit détaillé et si cela semble nécessaire, tout analyser en détail peut être utile et instructif. Ici nous n’analyserons que les domaines par souci de simplicité.

 

Tri et classification

 

Une fois que nous avons une liste de domaines ayant un lien vers notre site, il nous faut les trier. Pour cela, quatre métriques vont être utiles :

  • Le PageRank de la page d’accueil des domaines
  • Son Page Authority (Moz)
  • Son Domain Authority (Moz)
  • Son status http

Aucune de ces quatre mesures n’a beaucoup d’utilité à elle seule. Le PageRank est très imprécis, rarement à jour et peu fiable pour évaluer la qualité d’un site. Les Page et Domain Authority sont de bons indicateurs de qualité, parmi les meilleures métriques en termes de corrélation avec les rankings (positions sur Google), mais ne sont pas suffisants. Enfin le status http ne nous donne aucune information sur la qualité du site, seulement sur son accessibilité. En revanche lorsque analysées ensembles, ces informations donnent généralement une estimation de base de la qualité d’un lien. Il peut être peu commode de récupérer toutes ces métriques pour une longue liste de sites web, voire carrément prise de tête. Un outil pratique pour cela est NetPeak. Remarque : attention, certaines de ces métriques sont sensibles à la canonicalisation : il faudra donc auparavant déterminer pour chaque domaine quelle est son URL canonique ! domaine.com, www.domaine.com ou www.domaine.com/index.htm, etc. ? Au final, on obtient un tableau de 6 colonnes : Domaine, URL, PageRank, Page Authority, Domain Authority et Status. Un peu de formatage conditionnel avec Excel, et voici le résultat :

Analyse

 

Il faut bien avoir conscience que ces métriques ne sont pas des mesures parfaitement fiables de sites pénalisés ou de mauvaise qualité. Ce ne sont que des indicateurs. Voici deux cas de figure permettant de repérer des sites douteux :

  • Domaines qui renvoient un status 404. Pas forcément de mauvaise qualité, ces domaines méritent toutefois un peu d’investigation : ont-ils des difficultés techniques ? Le site a-t-il été mis hors ligne car n’est plus rentable ? était-il pénalisé/désindexé par Google avant d’être mis hors ligne ? ou bien est-il en cours de refonte ? A-t-il été racheté ? etc. Dans l’exemple précédent, en jaune un site qui mériterait une telle investigation.
  • Domaines qui présentent un Page Authority élevé couplé à un PageRank nul ou faible. Ceux-ci possèdent suffisamment de liens pour valoir un page authority correct et ont probablement été pénalisés par Google via une dévaluation manifeste de leur PageRank. Exemples en rouge dans la liste donnée plus haut en exemple.
    Attention toutefois, certains de ces sites sont probablement récents et leur PageRank n’a peut-être pas encore été calculé, donc méfiance. De plus, en dessous d’un certain PA, il est normal de voir un faible PR, il faut donc réserver ce type d’analyse aux PA supérieurs à 40 environ (peut varier selon les types de niches). Dans notre exemple, en dessous d’un PA de 30 on ne peut rien dire de ces sites.

Une fois ces sites marqués, on peut les dénombrer et comparer au profil de sites concurrents par exemple. Attention de toujours comparer des proportions, en particulier si les nombres de liens sont très différents d’un site à l’autre. Il faut aussi toujours un minimum d’une centaine de linking domains pour pouvoir effectuer des comparaisons de profils viables. Prenons un exemple :

  • Profil 1 : 889 linking domains, dont 26 vraisemblablement pénalisés et 56 hors-lignes (ou présentant un problème de serveur temporaire).
  • Profil 2 : 344 linking domains, dont 35 vraisemblablement pénalisés et 43 hors-lignes.

Premier indice, le nombre de linking domains, presque double pour le premier, avec une faible proportion de liens douteux (moins de 3 % pénalisés, 6.3 % en 404) contre 10 % et 12.5 % respectivement pour le second profil. Il est assez clair que le premier profil est de bien meilleure qualité. Voyons les valeurs des deux métriques principales :

Clairement le profil 2 (mauvais, en bleu sur les graphes) possède beaucoup plus de liens provenant de sites à PageRank nul et moins de PR>4. Si les profils de Page Authority sont similaires, le bon profil devance sur les PA>60. Quand à la tranche 40<PA<60 ce sont probablement des liens non-naturels, beaucoup d’entre-eux étant, dans cet exemple, des annuaires de médiocre qualité.

 

Aller plus loin

Ces critères permettent généralement de réduire considérablement la liste de liens à vérifier manuellement. Pour un profil très volumineux, ce n’est probablement pas suffisant et il faudra alors pousser l’analyse plus loin.

A cela, on peut ajouter la vérification de l’indexation par Google : si la commande « site :www.domaine.com » ne renvoie aucun résultat, il est clair qu’un lien provenant de ce site n’est pas souhaitable ! C’est en fait une des seules mesures relativement fiable.

En utilisant une protection antivirus capable de reconnaître les sites infestés par des malwares, il est possible de détecter assez rapidement des sites dangereux de la liste de domaines. Par exemple en récupérant les codes de statut http avec NetPeak, l’antivirus sera déclenché et demandera d’accepter ou bloquer l’accès à ces sites. Il faut les noter soigneusement et les comptabiliser dans sa liste.

Il est aussi possible de croiser cette liste de domaines avec une whitelist/blacklist pour identifier par exemple les annuaires et sites de cp de mauvaise qualité.

Afin de déterminer si la proportion de sites dangereux ou de mauvais annuaires est raisonnable ou excessive, il faut la comparer avec celles de concurrents, ce qui implique d’effectuer le même travail pour plusieurs sites.
Il peut aussi être enrichissant de comparer les proportions de liens provenant de forums, blogs, sites gouvernementaux, etc.

Enfin, une analyse approfondie des liens impliquera de déterminer quelles sont les ancres les plus utilisées, quelle proportion contient un nom de marque ou des mots-clés commerciaux, combien de liens proviennent d’un même site, leur position (centre, colonne ou footer), etc.

 

Qu’en pensez-vous ? Connaissez-vous d’autres méthodes d’analyse ? Partagez-les dans les commentaires !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *