G

Bayésien vs Fréquentiste : quelle méthode pour ses A/B tests ?

Comprendre enfin la différence entre statistiques bayésiennes et fréquentistes pour optimiser ses A/B tests.

Analytics
SOMMAIRE
  1. Text Link
Sommaire

Si vous êtes Data Analyst, Product Manager ou encore Growth Marketer, vous avez peut-être déjà vécu cette situation, vous lancez un A/B test prometteur et vous attendez des semaines pour obtenir des résultats… qui s'avèrent finalement non significatifs. Ou pire, vous observez des chiffres qui semblent plats avec une méthode de calcul mais qui deviennent soudainement significatifs en changeant d'approche statistique. Pendant ce temps, vous perdez potentiellement des conversions précieuses, ou vous laissez une variante sous-performante dégrader votre CA.

Aujourd'hui, la plupart des outils d'A/B Test du marché (comme Kameleoon, AB Tasty, VWO ou Optimizely) proposent une approche bayésienne en complément de la méthode fréquentiste classique, certains ont même fait le chemin inverse, comme AB Tasty, qui était exclusivement bayésien avant de réintégrer le fréquentiste dans ses rapports. Mais pourquoi ces évolutions ? Chez Welyft, en tant qu'agence experte en CRO, nous remarquons souvent que les équipes peinent à justifier le choix d'une méthode statistique plutôt qu'une autre.

Dans cet article, nous n'allons pas vous assommer de formules mathématiques. Notre objectif est de vous aider à comprendre les mécaniques des deux méthodes pour mieux choisir celle qui conviendra à votre contexte, votre trafic et vos objectifs business.

Qu'est-ce qui différencie vraiment l'approche fréquentiste de l'approche bayésienne ?

Pour bien comprendre ce qui se joue, il faut saisir la philosophie derrière les deux grandes écoles statistiques.


L’approche “Fréquentiste”

La méthode fréquentiste est l'approche traditionnelle, celle que l'on apprend à l'école. Elle tient son nom du concept de "fréquence", où la probabilité d'un événement correspond à la fréquence à laquelle il se produit si l'on répétait l'expérience à l'infini.

Dans un A/B Test, on "réfléchit à l'envers". La méthode part d'un principe appelé "l'hypothèse nulle". C’est à dire que l’on postule qu'il n'y a absolument aucune différence entre la version A (dite "originale" ou "contrôle") et la version B (variation). Son but est ensuite d'accumuler un volume de données prédéfini pour prouver que cette hypothèse est fausse, et ainsi démontrer que le changement apporté est statistiquement significatif. Pas d'inquiétude, ce calcul ne se fait pas à la main, il existe de nombreux outils pour ça et nous avons listé les meilleurs calculateurs dans cet article dédié.

Ses indicateurs clés sont la p-value (qui mesure la probabilité que la différence observée soit due au hasard) et l'intervalle de confiance (qui signifie que si vous répétiez ce test de nombreuses fois, 90% de ces intervalles contiendraient le vrai gain). C'est finalement une méthode binaire, soit la différence observée est une simple coïncidence, soit elle est validée.

L'analogie du tribunal : C'est comme un procès. La version B est "innocente" de toute supériorité tant que vous n'avez pas accumulé une pile de preuves suffisantes pour démontrer le contraire.

L’approche “Bayésienne” 

L'approche bayésienne (du théorème du mathématicien britannique Thomas Bayes) fonctionne comme un humain face à une prise de décision. Elle intègre les connaissances existantes et met à jour ses probabilités en temps réel à chaque fois qu'un nouvel utilisateur interagit avec votre test. Plutôt que de chercher à prouver une vérité absolue, cette méthode vous donne une réponse intuitive et concrète : "Quelle est la probabilité que la variante B soit meilleure que la A ?"

Ses indicateurs clés sont la probabilité de gain (exprimée directement en pourcentage de chances que B batte A) et l'intervalle de crédibilité (qui vous dit concrètement : "il y a 90% de chances que votre gain se situe entre +1% et +3%").

L'analogie du pari sportif : Imaginez que vous pariez sur un match de tennis. Au fur et à mesure que les sets avancent et que les joueurs marquent des points, vous ajustez votre confiance sur le vainqueur final. Vous n'attendez pas la fin du match pour comprendre qui domine, vous mettez à jour votre "croyance" en continu selon les événements du terrain.

Les deux méthodes ne répondent pas à la même question. Le fréquentiste cherche à déterminer si une différence réelle existe entre A et B, c'est une question d'existence. Le bayésien, lui, indique directement si la variante B est meilleure que A et avec quelle probabilité, c'est une question de décision. C'est souvent cette nuance qui échappe aux équipes, et qui mène à de mauvaises interprétations des résultats.

Quels sont les indicateurs clés des méthodes fréquentiste et bayésienne ?

C’est généralement ici que les choses se corsent et que le jargon technique prend le dessus. Pour faire simple, la statistique fréquentiste et la statistique bayésienne ne répondent tout simplement pas à la même question.

Voici une comparaison claire pour comprendre ce que vous lisez concrètement : 

Ce que vous cherchez à savoir Méthode Fréquentiste Méthode Bayésienne
La question à laquelle l’algorithme répond “La différence observée entre A et B est-elle due au hasard ?” “Quelle est la probabilité que la variante B soit meilleure que la A ?”
L’indicateur de succès phare La P-value
Contrairement aux idées reçues, ce n'est pas la probabilité de succès, mais celle d'obtenir des résultats au moins aussi marqués que ceux observés. Elle sert à mesurer le poids du hasard, plus la P-value est faible, plus l'hypothèse d'une égalité entre A et B s'effondre au profit d'une différence réelle. C'est pourquoi elle est souvent présentée sous la forme “1 - Pvalue”, transformant un indice en un taux de confiance statistique plus intuitif.
La probabilité de gain
En clair : C’est direct et intuitif. L’outil vous dit littéralement : “Il y a 95% de chances que votre nouvelle page produit convertisse mieux que l’actuelle”
L’estimation de vos gains potentiels L’intervalle de confiance
Attention au piège ! Il ne vous donne pas la probabilité que votre gain se situe dans cet intervalle. Il évalue la fiabilité à long terme. Par exemple, un intervalle de confiance à 90% signifie que si vous répétiez tout ce processus (collecter des données et calculer l’intervalle) de nombreuses fois, 90% de ces intervalles contiendraient le taux réel.
L’intervalle de crédibilité
C’est une estimation directe et compréhensible pour votre business. Par exemple, un intervalle de crédibilité de 90% signifie qu’il y a 90% de probabilité que le vrai gain se situe dans cet intervalle.
La règle de l’échantillonnage Taille fixe
Vous devez calculer le nombre de visiteurs requis avant de lancer le test et ne rien toucher jusqu’à ce que ce chiffre soit atteint
Taille flexible
l’algorithme se met à jour en continu à chaque nouvelle visite. Vous n’avez pas de taille d’échantillon fixe à respecter au préalable
L’observation en cours de route (Data peeking) Strictement interdite
Prendre une décision avant la fin du test fausse l’analyse et multiplie le risque de déployer un faux gagnant
Autorisée
Vous pouvez surveiller les tendances au jour le jour. Idéal pour couper instantanément une variante si elle s’avère toxique pour vos ventes.

Finalement, le vocabulaire fréquentiste (comme la fameuse P-value) peut être contre-intuitif pour quiconque et pousse souvent les équipes à mal interpréter les résultats. Sa rigidité a toutefois un mérite, elle ne laisse aucune place à l'interprétation. En dessous du seuil de confiance fixé, le verdict est sans appel, le test reste non concluant, point final.
Cette discipline s'étend même à la phase de préparation. En calculant la durée du test avant de le lancer, vous structurez naturellement votre roadmap d'expérimentation, vous évitez les chevauchements entre tests sur un même périmètre et vous savez toujours quand vous pourrez lancer le suivant.

À l'inverse, le vocabulaire bayésien s'aligne avec la réalité de nos métiers, il quantifie un risque et estime un gain financier, ce qui facilite grandement la prise de décision en réunion. Cette souplesse a cependant un coût. Aucun garde-fou ne vous empêche de déclarer une variante gagnante sur la base d'une probabilité de gain encore fragile. Le risque est d'autant plus réel sur les petits effets, où l'intervalle de crédibilité reste large et met du temps à se stabiliser, même quand la probabilité de gain semble déjà engageante.

Peut-on vraiment lire ses résultats en temps réel ?

Le gros défaut de l'approche fréquentiste, c'est sa rigidité. Si vous regardez vos résultats en cours de route (ce qu'on appelle le "Data Peeking") et prenez une décision avant que le seuil d'échantillonnage calculé au préalable ne soit atteint, vous faussez votre analyse.

L'approche bayésienne, elle, peut être un véritable accélérateur de décisions mais cette flexibilité n'excuse pas la précipitation. Avant de couper un test, assurez-vous toujours que la tendance observée est nette et confirmée sur plusieurs jours. Un effet de nouveauté, une saisonnalité ou une simple fluctuation ponctuelle peuvent facilement donner une fausse alerte, surtout quand l'intervalle de crédibilité est encore instable. Une fois ces conditions réunies, vous pouvez couper un test s'il fait chuter vos ventes, ou déployer la version gagnante sans attendre des semaines à cause d'un échantillonnage fixe, dès que vous obtenez une probabilité de succès rassurante avec un intervalle de crédibilité resserré.

Quelle méthode pour quel contexte ?

Il n’y a pas de “mauvaise” méthode, il n’y a que des méthodes mal appliquées à un contexte donné. Voici comment nous recommandons de les utiliser sur vos problématiques e-commerce ou lead gen.

Quand utiliser la méthode Fréquentiste ? 

Elle est à privilégier lorsque vous travaillez sur des changements structurels majeurs ou des tests à haut risque où une erreur de décision coûterait très cher. Vous aurez besoin de cette “rigueur scientifique" qui demande d'attendre la fin du test pour conclure afin de limiter les risques au maximum.

  • Exemple 1 : La refonte complète d’un tunnel d’achat. Imaginez-vous changer le design de toutes les étapes de votre checkout. Si vous vous trompez, la perte de CA sera monumentale. Vous aurez donc besoin de la rigueur du fréquentiste pour être sûr à 100% de votre significativité statistique avant de lancer vos développeurs sur un chantier d’un mois.

  • Exemple 2 : Sur des sites à très fort trafic, où l'échantillon requis est atteint en seulement quelques jours. Le volume de données permet ici de bénéficier de la rigueur du modèle fréquentiste sans subir les délais d'attente habituels égalant ainsi la réactivité de la méthode bayésienne.
Outil recommandé pour la méthode Fréquentiste : Le calculateur Welyft

Quand utiliser la méthode Bayésienne ? 

Elle est idéale pour l'agilité au quotidien et les tests itératifs. Elle permet de s'arrêter plus tôt si une variante surperforme nettement et d'interpréter les résultats de manière beaucoup plus intuitive.

  • Exemple 1 : Sur des pages à faible trafic (par exemple, B2B ou marché de niche). Ici, obtenir la taille d’échantillon requise par le fréquentiste vous prendrait 6 mois. Le bayésien vous permettra de dégager une probabilité de succès fiable bien plus vite.
     
  • Exemple 2 : Sur des micro-optimisations (par exemple, du wording, de la réassurance…). Car dans ce cas, le coût d’implémentation est faible. Si l’intervalle de crédibilité indique un gain potentiel entre +1% et +3%, vous pouvez itérer et déployer sans attendre une validation absolue.
  • Exemple 3 : Sur des campagnes promotionnelles courtes (par exemple, soldes, black friday..). Ici, le temps est compté et la méthode bayésienne vous permet de basculer sur la variante gagnante dès qu’une tendance forte se dessine, maximisant ainsi le profit immédiat.
Outil recommandé pour la méthode Bayésienne : Le calculateur Welyft

Quelle est la vraie expertise CRO dans tout ça ?

Utiliser le bon outil au bon moment, c'est ça la vraie expertise CRO mais cette flexibilité de choix ne doit pas se transformer en flou méthodologique. La méthode doit être décidée avant le lancement du test, jamais en cours de route. Changer d'approche statistique au milieu d'une expérimentation, ou jongler entre les deux selon les résultats qui vous arrangent, complique sérieusement l'historisation de vos résultats et fragilise la fiabilité de vos conclusions.

Retenez l'essentiel. Le fréquentiste vous apporte la rigueur, idéale pour les décisions à fort enjeu. Le bayésien vous offre l'agilité, parfait pour itérer vite et décider en temps réel. Néanmoins, il n'est pas adapté aux tests de non-infériorité puisqu'il se contente d'indiquer si une variante est meilleure qu'une autre, sans pouvoir confirmer qu'elle n'est pas significativement moins bonne.

Chez Welyft, en tant qu'experts en CRO, nous choisissons toujours la méthode qui sert les résultats, pas celle qui est à la mode. Parce qu'une bonne décision CRO, c'est avant tout la bonne approche selon un contexte, un trafic et des objectifs business.

Échangez avec un expert Welyft

L'agence Data-Marketing qui booste le ROI de vos parcours clients

Prendre rendez-vous
Partager cet article sur

Dites-nous en plus de votre projet

Nous savons comment augmenter la performance de vos canaux digitaux.
CRO
Data
User Research
Expérimentation
Nous contacter