4 formules à connaître pour ne pas planter ses rapports de SEO/SEA

Contrairement aux idées reçues, les mathématiques ne sont pas là pour nous compliquer la tâche. Elles sont là pour résoudre ou simplifier des problèmes. Sauf que bien souvent, et en particulier pour les non-mathématiciens, le problème principal c’est l’interprétation. Qu’est-ce qu’un logarithme ? A quoi ça sert ? Qu’est-ce qu’une probabilité et comment l’interpréter correctement sans en tirer des conclusions fausses ? Il y a plus de pièges dans l’interprétation de ces concepts que dans les calculs !

Voici quelques exemples de formules utiles pour le référenceur et pour le marketeur. Que ce soit en optimisation pour les moteurs de recherche (SEO) ou en publicité sur les moteurs de recherche (SEA), ces quelques calculs sont très importants pour prendre les bonnes décisions.
Et rassurez-vous, pas besoin de faire les calculs soi-même, excel peut très bien le faire à notre place ! Chaque section sera accompagnée d’une formule excel, et une feuille de calcul complète sera donnée en fin d’article.

L’erreur type ou la précision d’un CTR

Pour calculer la marge d’erreur et l’intervalle de confiance d’une proportion de clics, deux valeurs sont nécessaires : le taux de clic (CTR) et le nombre d’impressions.

La situation est la suivante. On effectue des impressions d’annonces Adwords ou de snippets de Google. Chacune est cliquée dans une proportion connue, disons 1.5 % (c’est le taux de clic, ou CTR). On peut interpréter ce taux comme une probabilité : à chaque impression, il y a 1.5 % de chances de produire un clic. En mathématiques, cette situation est régie par la loi discrète de Bernoulli : soit on obtient un clic (avec pour probabilité le CTR), soit on en obtient pas (avec probabilité 1-CTR), et on recommence avec l’impression suivante.
On va donc calculer l’erreur type de la moyenne. Si on note CTR le taux de clic et N le nombre d’impressions, l’erreur type ou précision P sera :

En prenant CTR=1.5 %=1.5/100=0.015 et N=4000 impressions, cela donnera une précision de 0.0038 soit 0.38 %. Donc la valeur « réelle » (avec une confiance de 95 %, c’est le facteur 1.96) du taux de clic est comprise entre 1.5-0.38=1.12 % et 1.5+0.38=1.88 %.

CTR= 1.5 % ? NON !

1.12 % < CTR < 1.88 %

Et si on a le même taux de clic mais pour un nombre d’impressions plus faible comme 423, le CTR est alors compris entre 0.34 % et 2.66 % ! On a beaucoup perdu en précision…

Un CTR n’a de valeur qu’avec un nombre suffisant d’impressions !

Pour calculer la précision d’un CTR dans excel, rien de plus simple, il suffit d’utiliser la formule

D3=1.96*RACINE(C3*(1-C3)/B3)

Remarque : attention, excel peut effectuer lui-même la conversion entre la valeur décimale et le pourcentage (cf image), mais ce n’est qu’une option d’affichage, la formule reste la même.

Le split-testing ou la comparaison de CTR

Comment exploiter cette formule pour comparer des mots-clés ou des annonces ?
Mettons qu’un mot-clé d’Adwords (ou une annonce) possède un CTR de 1.5 % avec 4000 impressions (soit 60 clics) et un autre de 2 % avec seulement 500 impressions (soit 10 clics). Est-ce que le second mot-clé est significativement meilleur ? Et bien non car celui-ci à une précision moins bonne… Le second taux n’est donc pas suffisamment fiable pour juger.

Si le taux de 2 % avait été mesuré à partir de 100 clics sur 5000 impressions, alors là oui, ce CTR serait clairement supérieur au premier avec une valeur de confiance forte :

Remarque : il est généralement admis qu’un taux de confiance de 95 % est nécessaire pour considérer un résultat statistique comme significatif dans une analyse rigoureuse.
On peut se permettre en dehors des arcanes rigoureux de la science de considérer un taux de 90 % comme satisfaisant pour notre utilisation quotidienne (sauf peut-être si l’enjeu est très important !).

Attention contrairement à l’intuition un taux de confiance inférieur à 70 % est quasiment un lancer à pile ou face !

En revanche, calculer la valeur de confiance de l’écart entre plusieurs taux de clics est plus délicat car il met en jeu des calculs avancés (score Z, valeur P)…
Pour cela deux solutions. Soit utiliser un outil en ligne comme splittester.com (en anglais), soit utiliser la feuille de calcul que je vous ai préparé.

L’échantillonnage : combien de visites pour un test A/B fiable ?

En théorie, le nombre de visites nécessaires pour atteindre un certain niveau de précision ne dépend pas du taux mesuré (CTR par exemple). Une fois un taux d’erreur choisi, ainsi qu’une précision, on peut déterminer le nombre de visites nécessaires pour un test A/B satisfaisant ces exigences.
Si l’on note p la précision (pour un CTR une précision de 0.5 % peut être souhaitable soit p=0.005) et e le taux d’erreur (généralement e=0.05 pour donner une certitude de 95 %), le nombre de visites nécessaires est de 73 777 d’après la formule suivante :

On peut observer en testant différentes valeurs qu’augmenter la précision p peut faire exploser le nombre de visites nécessaires, alors qu’améliorer la fiabilité (probabilité d’erreur e) ne coûte pas bien cher :

Nombre de visites nécessaires ‘’n’’ pour différentes précisions

Remarque : la précision doit être définie AVANT le test. Si on mesure un taux de conversion de l’ordre de 45 % et que l’on est confiant de pouvoir le faire augmenter sensiblement, une précision de 5 % est peut-être suffisante. En revanche pour des petits taux de 2 ou 3 % il faudra nécessairement viser une précision bien meilleure.

Mesure de la fiabilité d’un test A/B

Aussi surprenant que cela puisse paraître, on ne calcule pas la confiance d’un test A/B de la même manière avant ou après sa mise en action. En effet, le tableau précédent est un guide complètement indépendant des résultats du test. Il permet de mettre toutes les chances de son côté afin d’avoir des résultats fiables.
En revanche, pour évaluer la fiabilité d’un test il n’est pas suffisant. La précision des mesures va très fortement influencer la confiance que l’on peut avoir dans les résultats. Il ne suffit pas de lire le tableau précédent, ou bien stopper un test A/B dès qu’une certaine précision est atteinte, car cela fausserait complètement sa fiabilité !

Exemple : Prenons un CTR de 3.6 % généré sur 941 visites lors d’un test A/B (avec 3 % pour le contrôle sur 1000 visites). A priori en lisant le tableau on pourrait penser que la probabilité d’erreur n’est que de 5 % (i.e. un taux de confiance de 95 %), ou encore que la précision est de 2 % avec une probabilité de l’ordre de 90 %. C’est totalement faux !
Le taux d’erreur est en fait de 23 % ce qui est énorme. Ce résultat n’a aucune valeur significative. Pour un taux de cet ordre, il aurait fallu viser une précision de 1 % (minimum) obtenue avec pas moins de 7 fois le trafic reçu dans cet exemple.

On peut utiliser l’onglet de split-testing du fichier excel pour obtenir une évaluation des résultats d’un test A/B. Pour plus de variables, utiliser le site abtester.com (en anglais).

La corrélation : coefficient de Pearson

Une corrélation indique par une valeur de -1 à 1 la liaison existant entre deux ensembles de nombres.
Une corrélation de 1 entre deux ensembles signifie que les données sont parfaitement identiques ou directement proportionnelles. Si une variable augmente, alors l’autre aussi.
Une corrélation de 0 signifie qu’il n’y a aucun lien entre les données (l’une n’est pas fonction de l’autre, donc encore moins proportionnelle), et une corrélation de -1 signifie que les données sont inversement proportionnelles (si une variable augmente, l’autre diminue).
Voici la formule permettant de calculer ce coefficient, à apprendre par cœur ! 😉

Bien sûr, excel vient encore à la rescousse, et ceci de trois façons différentes :
Il est possible d’effectuer tous les calculs à la main, en calculant toutes les valeurs intermédiaires en suivant la formule donnée plus haut. Aucun intérêt vu la simplicité des méthodes suivantes, mais cela permet de s’assurer de la validité de celles-ci.

Pas besoin de s’embêter, il existe une fonction toute prête PEARSON() qui permet de comparer deux listes de valeurs (pas plus).

Dans l’onglet « données » se trouve l’utilitaire d’analyse, permettant entre autres d’effectuer une analyse de corrélation. L’avantage de cette méthode, c’est qu’elle permet d’analyser plus de deux variables en produisant un tableau de coefficients, ce que ne peux pas faire la fonction précédente. Voir par exemple la comparaison des outils de backlinks de l’article précédent. Par contre attention, cet outil est très sensible aux cases vides et aux valeurs non numériques. En cas de message d’erreur, il faudra nettoyer les données.

Vous pouvez vérifier que ces trois méthodes donnent bien le même résultat avec un petit exemple de chaque dans le dernier onglet du fichier excel.

Rappel : J’ai généralement mon parapluie avec moi lorsqu’il pleut (forte corrélation), mais ce n’est pas parce que je l’ai avec moi qu’il pleut forcément ! (car il n’y a pas de causalité)

Lors du VLC2013 (Visibilité Live Camp), Sylvain Peyronnet nous l’a rappelé brillamment avec de nombreux exemples et explications. Il nous rappelle que lorsqu’une corrélation est observée, il faut toujours rechercher l’évènement tiers qui permettrait d’expliquer cette corrélation.
Dans mon exemple, la corrélation est due au fait que j’ai toujours un parapluie au bureau, un chez moi et un dans ma voiture… Heureusement qu’il n’y a pas de causalité sinon la pluie ne s’arrêterait jamais !