#13 -Comment démocratiser l'adoption de l'A/B testing dans une grande entreprise ?

Entretien avec Brice Koenig, Experimentation Lead au sein du groupe Lufthansa

Brice Koenig

9/3/202411 min read

👋 Hello la communauté Dataque

🚀 Dans cette édition de notre newsletter, nous avons la chance de pouvoir échanger avec Brice Koenig, Experimentation Lead au sein du groupe Lufthansa. Il accompagne les équipes produit dans l'intégration des expérimentations et l'utilisation des A/B tests pour une prise de décision data-driven au sein du groupe Lufthansa.

✈️ Le groupe Lufthansa comprend plusieurs compagnies aériennes majeures telles que Lufthansa et Swiss International Air Lines.

👨‍💻 Brice va partager son expérience avec nous et nous parler de la démocratisation des A/B tests chez Lufthansa.

Les termes clés pour comprendre cet article :

  • A/B Test¹ : Méthode d'expérimentation où deux versions d'un élément (comme une page web ou une fonctionnalité) sont comparées pour déterminer laquelle est la plus performante.

  • A/A Test² : Variante des A/B test où deux versions identiques sont comparées pour vérifier que le système d'expérimentation fonctionne correctement.

  • Tests multi-armed bandit (MAB)³ : Type d’A/B test qui utilise l'apprentissage automatique pour apprendre à partir des données recueillies pendant le test et augmenter dynamiquement l'allocation des visiteurs en faveur des variations les plus performantes. Cela signifie que les variations qui ne sont pas performantes reçoivent de moins en moins de trafic au fil du temps. Contrairement aux A/B tests, MAB maximisent le nombre total de conversions pendant la durée du test.

  • Approche décentralisée “Center of Knowledge” : Stratégie organisationnelle où l'expertise et les connaissances sont réparties à travers l'entreprise, plutôt que centralisées, permettant une prise de décision plus agile et informée.

  • La vérification QA : Processus systématique destiné à garantir que les produits ou services répondent aux exigences spécifiées et aux standards de qualité. Cela inclut des tests, des inspections et des audits pour identifier et corriger les défauts avant le lancement ou la mise en production.

👋 Hello Brice,

Est-ce que tu peux nous parler de ton parcours professionnel et quel a été ton chemin avant de devenir Experimentation Lead ?

Avec plaisir !
Alors j'ai commencé ma carrière chez Doctolib, où j'ai eu la chance de travailler en collaboration avec des product managers sur les premiers A/B tests. Nous utilisions des notebooks en Python et R pour analyser les résultats, ce qui nécessitait énormément de travail manuel afin d'arriver à des résultats fiables et une méthode scalable.

Travailler dans une startup comme Doctolib était extrêmement enrichissant... L'environnement était très agile et le testing était vu comme une extension naturelle de notre approche déjà très data-driven.

Cette expérience m'a appris que l'expérimentation n'est pas uniquement une matière technique, mais également humaine/sociale. L’un des plus gros enjeux étant souvent de convaincre les équipes de la valeur de cette approche et rendre les concepts accessibles à tous, du designer au CPO.

Après Doctolib, j'ai travaillé chez Sunday, puis j'ai déménagé à Zurich où j'ai rejoint Lufthansa en tant qu'Experimentation Lead. Au sein de la section tech du groupe (Digital Hangar) mon rôle depuis mars 2023 a été de standardiser les pratiques d'expérimentation à grande échelle pour toutes les compagnies du groupe (Lufthansa / Swiss Air / Austrian Airlines / Brussels Airlines).
Les plateformes en ligne générant plusieurs dizaines de millions de revenus par jour, chaque changement peut avoir un très gros impact en termes de revenus.

Ton rôle est assez atypique, pourrais-tu nous expliquer en quoi il consiste plus exactement ?

Pour faire simple, mon travail est de m'assurer que l'ensemble des modifications des plateformes du groupe Lufthansa (qui compte plus de 2000 personnes) soient A/B testés. L'objectif est de s'assurer que chaque nouvelle fonctionnalité est testée et que son impact est prouvé avant d'être déployée.

Pour atteindre cet objectif, mon quotidien se divise en trois volets :

  1. Volet technique

Le premier volet concerne la fiabilité et la disponibilité de nos outils. Il est crucial de s'assurer que nous disposons d'outils fiables pour mener nos tests. Cela inclut par exemple la mise en production d’A/A tests² pour vérifier la fiabilité de nos outils.

Nous travaillons également pour nous assurer que nos outils sont disponibles l’ensemble des plateformes. Nous sommes, par exemple, en train de développer les A/B tests sur mobile (apps). Enfin, nous explorons des méthodes plus avancées, comme les tests multi-armed bandit³, pour optimiser les décisions en continu. J'ai la chance de travailler avec deux personnes très compétentes qui se concentrent sur les aspects les plus techniques de ces projets.

  1. Développement des tests

Le deuxième volet concerne la conception et le déploiement des tests. Nous avons adopté une approche décentralisée, souvent appelée Center of Knowledge⁴. Avec ce modèle, notre Experimentation Core Team, composée de trois personnes, n'est pas là pour développer les tests directement, mais pour fournir toutes les ressources nécessaires afin que les équipes produit puissent développer leurs propres tests.

Cela inclut :

  • La définition d’une bonne Hypothèse de test et des métriques associés.

  • Le développement du code des différentes variantes testées.

  • La vérification QA⁵ sur tous les appareils.

  • La création d’une “mémoire” à travers la documentation des résultats pour qu'à grande échelle, nous puissions tirer profit au maximum des apprentissages de chaque test.

  • Nous fournissons également des clés de lecture pour l'analyse des tests.

De plus, nous veillons à ce que les tests en cours n'interfèrent pas les uns avec les autres, en coordonnant les différentes expérimentations pour éviter les biais dus à des tests simultanés sur les mêmes composants.

  1. Organisation et changement

Enfin, le dernier volet est axé sur la création d'une culture d'expérimentation au sein de l'entreprise. Promouvoir une culture qui valorise les erreurs et l'apprentissage est essentiel. Notre mantra est "from feature to outcome oriented". Il s'agit de convaincre les équipes, du top management aux développeurs, de l'importance de cette approche. En effet, il est bien plus simple de développer de nouvelles fonctionnalités que le management demande, plutôt que de challenger sa hiérarchie et réduire le nombre de features, tout en se concentrant sur des itérations visant à augmenter l’impact de celles-ci.

Nous mettons en place des formations, des ressources en self-service et des sessions de sensibilisation pour s'assurer que tout le monde comprend et adhère à cette méthodologie. Mon objectif est de faire en sorte que l'expérimentation devienne une norme, permettant de prendre des décisions éclairées basées sur des données solides.

En résumé, mon travail consiste à superviser les aspects techniques et méthodologiques des tests, tout en promouvant une culture d'expérimentation à tous les niveaux de l'organisation.

L'A/B Testing est au cœur des sujets produits chez Lufthansa. Quels en sont selon toi les principaux avantages ?

Pour moi, les principaux avantages des A/B tests sont :

  1. Baser les décisions sur des faits et non des intuitions

L'avantage évident des A/B tests, c'est qu'on ne base plus nos décisions sur des intuitions, mais sur des données concrètes. Un exercice que j'aime faire pour convaincre les gens de la valeur ajoutée des tests consiste à leur montrer un test que nous avons déjà réalisé, et leur demander la variante qu’ils pensent la plus “performante”.

Leurs réponses sont presque tout le temps à l'opposé des résultats réels du test, ce qui montre tout de suite que les AB tests sont indispensables.

  1. Laisser de la place à l’Innovation

Dans une grande entreprise comme Lufthansa, où il y a de nombreux points de vue et bien souvent des divergences d'opinion, l'A/B testing offre alors une liberté créative précieuse. Nous pouvons tester des idées innovantes sans prendre de risques importants, en observant les impacts positifs et négatifs sur différentes métriques. Cela nous permet de mieux comprendre si une nouvelle direction vaut la peine d'être explorée et de ne pas être freiné par la peur de l'échec.

Plus d’HIPPO : “je suis ici depuis 10 ans, je connais bien nos users” n’est plus une raison suffisante pour prendre une décision produit.

  1. Gestion des coûts et efficacité

Grâce aux A/B tests, nous pouvons développer des fonctionnalités plus rapidement et à moindre coût. Par exemple, pour des fonctionnalités identiques, nous avons constaté que le coût de développement avec nos outils d'A/B testing est deux fois moins important et deux fois plus rapide qu'avec une mise en production classique. Cela nous permet donc d'itérer beaucoup plus rapidement sur des idées.

En testant des hypothèses et des idées rapidement, nous pouvons identifier la meilleure version avant de passer à un développement complet en production, évitant ainsi de gaspiller des ressources sur des idées qui ne fonctionnent pas.En testant des hypothèses et des idées rapidement, nous pouvons identifier la meilleure version avant de passer à un développement complet en production, évitant ainsi de gaspiller des ressources sur des idées qui ne fonctionnent pas.

En somme, je dirai que l'A/B testing permet de transformer des suppositions en connaissances, d'améliorer l'efficacité opérationnelle et de favoriser l'innovation. C'est un outil essentiel pour toute organisation qui souhaite évoluer de manière agile, basée sur des preuves tangibles.

Quelles sont les erreurs à éviter pour garantir des résultats fiables lors du lancement d'un A/B test ?

Pour moi, il y a deux types d'erreurs à éviter lors du lancement d'un A/B : les erreurs humaines et les erreurs techniques. Les erreurs humaines sont souvent les plus intéressantes, car elles nécessitent une formation continue et une bonne compréhension des principes d'expérimentation, tandis que les erreurs techniques peuvent être gérées en amont par l'équipe responsable de l’outil.

Erreurs humaines :

  1. Mauvais choix de métriques : Une des erreurs les plus fréquentes est de ne pas choisir les bonnes métriques pour répondre à l'hypothèse du test. Il est crucial de définir clairement les métriques à analyser pour éviter de tirer des conclusions erronées après coup. De plus, il est important de mettre en place des “invariants métriques” pour monitorer d'éventuels impacts sur d'autres métriques critiques et éviter des discussions post-test avec d'autres équipes produit.

  2. Consulter des résultats et stopper le test au mauvais moment (peaking) : Analyser un test trop tôt, avant d'avoir collecté suffisamment de données, peut conduire à des conclusions hâtives. C'est ce qu'on appelle le "peaking". Il est important de définir des règles strictes sur la durée des tests et de s'y tenir pour éviter ce biais.

  3. Mauvaise préparation - Volume insuffisant : Ne pas démarrer un test si l'on sait que la page ou la fonctionnalité testée n'attire pas assez de volume pour produire des résultats significatifs ! Cela permet d'éviter de perdre du temps et des ressources.

Erreurs techniques :

  1. Sample ratio mismatch : Une des erreurs techniques classiques est d'avoir une répartition inégale des utilisateurs entre les groupes de test. Par exemple, un ratio de 55-45 entre A et B au lieu de 50-50 peut fausser les résultats.

  2. Unicity of Treatment : Il est crucial de s'assurer qu'un utilisateur ne se trouve pas dans plusieurs groupes en même temps, ce qui pourrait biaiser les résultats du test.

  3. Coordination des tests : Il faut éviter que plusieurs tests ne soient en cours en même temps sur le même composant pour éviter les interférences évidentes.

Pour une liste complète des erreurs techniques et des solutions, ainsi que de la bonne littérature sur le sujet. J’ai beaucoup écrit à ce sujet et vous pouvez retrouver toutes mes ressources ici.

En résumé, les erreurs humaines, comme le mauvais choix de métriques ou le peaking, nécessitent une bonne formation et une compréhension des principes de base. Les erreurs techniques, bien qu'importantes, peuvent être gérées efficacement avec les bons outils et pratiques. Pour plus de détails sur les erreurs techniques et des checks approfondis, n'hésitez pas à consulter mes articles disponibles sur Notion.

Qu'est-ce qui pousse les équipes produits chez Lufthansa à utiliser des A/B tests, et depuis quand cette méthode d'expérimentation est-elle encouragée au sein de l'organisation ?

Avant mon arrivée en mars 2023, l'utilisation des A/B tests chez Lufthansa était très limitée. Ils étaient utilisés sporadiquement, principalement pour des projets commerciaux. C'est vraiment à partir de mars 2023 que nous avons commencé à les utiliser de manière systématique et structurée.

Cela coïncide avec la création du Digital Hangar, une sous-organisation de Lufthansa, un peu comme Alphabet pour Google. Le Hangar s’occupe de l’ensemble des sujets tech au sein du groupe.

Mon rôle d'Experimentation Lead a été créé à ce moment-là pour intégrer pleinement l'expérimentation dans nos processus de développement produit. Pour faire simple, c'est moi qui pousse les équipes à utiliser les A/B tests !

Mais plus sérieusement, ce qui motive les équipes à adopter cette méthode, c'est la capacité à prendre des décisions basées sur des données concrètes plutôt que sur des intuitions. Les A/B tests permettent de valider les hypothèses, d'optimiser les fonctionnalités et d'améliorer continuellement nos produits de manière mesurable et objective.

En résumé, l'intégration des A/B tests chez Lufthansa a vraiment commencé avec la création du Digital Hangar en 2023. Depuis, cette méthode est devenue un pilier central de notre approche produit, permettant à l'organisation de bénéficier d'une plus grande agilité et d'une prise de décision plus éclairée.

Quelles sont tes bonnes pratiques pour lancer des A/B tests dans une organisation ?

Mes bonnes pratiques pour lancer des A/B tests dans une organisation sont les suivantes :

  • Commencer simple : Il est essentiel de ne pas se précipiter vers des outils complexes dès le départ. Si vous avez les capacités, commencez avec des notebooks. Constituez une équipe core avec un développeur backend pour la randomisation, un Data Scientist pour les analyses statistiques, et un Product Manager pour le reste. Cela vous permettra de comprendre les bases avant d'adopter des outils plus sophistiqués.

  • Créer une équipe pilote : Identifiez une "guinea pig team" qui sera particulièrement intéressée par le lancement des A/B tests. Idéalement, choisissez une équipe responsable des pages avec le plus de trafic, comme la home page. Cette équipe pourra tester les premières itérations et créer une base solide de connaissances avant de généraliser la pratique à l'ensemble de l'organisation.

  • Focus sur la confiance et la communication : Il est crucial de maintenir la confiance dans l'outil et les méthodes d'expérimentation. Communiquez régulièrement sur les erreurs et les succès. La transparence aide à construire la confiance et assure que les équipes restent engagées. Une fois la confiance perdue, il est difficile de la regagner.

  • Formation continue : Je recommande vivement la lecture du livre "Trustworthy Online Controlled Experiments" de Ron Kohavi. C'est une référence incontournable qui répond à de nombreuses questions et offre de précieux insights.

  • Ressources et support : Outre le livre de Ron Kohavi, je vous encourage à jeter un œil à mon Notion Book. Vous y trouverez un résumé des erreurs que j'ai pu faire, ainsi que de nombreuses ressources et listes de lecture. Le but de ce partage est d'aider un maximum de personnes. Si vous avez des questions ou souhaitez simplement discuter d'expérimentation, n'hésitez pas à me contacter sur LinkedIn.

Pour évoquer les différentes phases d'un programme d'expérimentation, on parle souvent de "crawl, walk, run, and fly". Dans la première phase, "crawl", le focus doit être sur tous les éléments que j'ai mentionnés afin de montrer des premiers succès story. Il est important de communiquer sur ces succès et de montrer l'impact des premiers tests, car c'est ainsi que l'on génère un véritable momentum et que l'on peut avancer vers la phase suivante, "walk". À cette étape, on met en place une structure solide basée sur les succès initiaux pour continuer à progresser.

En résumé, commencez avec des bases simples, formez une équipe pilote, maintenez la confiance à travers une communication ouverte, investissez dans la formation continue et utilisez les ressources disponibles pour construire une culture d'expérimentation robuste.

Merci beaucoup pour votre lecture et à la semaine prochaine pour un nouvel article.

🚨 PS: Si vous aimez notre newsletter, n'hésitez pas à la partager autour de vous et à nous suivre sur Linkedin pour ne rater aucune de nos aventures.