Logistique : arrêtez de deviner, passez à l'A/B Testing

Lorsqu’il s’agit de la gestion des commandes, il est souvent question de prendre des décisions à plusieurs millions d’euros, basées sur des intuitions ou des fichiers Excel théoriques. Il existe pourtant une méthode bien plus fiable : l’A/B Testing appliqué à votre système de gestion des commandes (OMS).

Plutôt que de projeter des résultats, cette méthode permet de tester vos règles logistiques sur de vraies commandes, avec un stock réel et de vrais clients.

Qu’est-ce que l’A/B Testing pour un OMS ?

Votre OMS est le cerveau de votre logistique : c’est lui qui décide quel entrepôt ou quel magasin doit expédier une commande. Cette décision repose sur une « logique de sourcing » (ex: prioriser le lieu le plus proche, le moins cher ou celui qui a le plus de stock).

Faire de l’A/B Testing consiste à faire tourner deux versions de ces règles en même temps :

Version A : Vos règles actuelles.

Version B : Une nouvelle stratégie que vous voulez tester.

Le système répartit une partie des commandes réelles entre les deux versions pour comparer les résultats concrets.

Pourquoi le test « en direct » est supérieur à la simulation ?

La simulation a son utilité, mais elle présente une faille fondamentale en logistique : il est impossible de recréer parfaitement l’état de vos stocks à un instant T.

Pensez à ce qui se passe dans votre réseau de distribution en ce moment même. Les niveaux de stocks sont mis à jour par les équipes de réception. Des articles sont vendus en magasin. Les retours sont traités et réintégrés aux stocks disponibles à la vente. Des transferts sont en transit. Une vente flash vide les stocks de trois entrepôts plus vite que votre cycle de réapprovisionnement ne peut répondre. Aucun modèle de simulation ne peut capturer tout cela simultanément, avec une fidélité totale et en temps réel.

L’A/B testing en direct, lui, soumet de vraies commandes à des conditions réelles. Si votre nouvelle règle de gestion envoie des commandes vers un entrepôt qui s’avère en rupture sur une référence clé, vous voyez exactement ce qui se passe. Et vous le mesurez. Cette commande fractionnée ? Ce retard d’expédition ? Cette perte de marge ? Tout apparaît dans vos données. Une simulation, elle, aurait supposé un inventaire parfait et serait totalement passée à côté.

Le test en direct capture également la performance des transporteurs en conditions réelles : retards sur certains axes, suppléments de poids volumétrique ou camions manqués. Ce sont des variables que votre simulation ignore, mais que vos clients, eux, remarquent à coup sûr.

La puissance des tests à faible volume

L’un des plus grands avantages est le contrôle du risque. Vous n’avez pas besoin de basculer 100 % de vos commandes sur une nouvelle règle.

Commencer petit (1 % ou 10 %) : si la nouvelle règle est défaillante, l’impact est limité et vite corrigé.

Tester en continu : Vous pouvez tester plusieurs stratégies en parallèle (ex: un nouveau transporteur sur 5 % du flux et une règle de rupture sur 2 %) sans perturber vos opérations globales.

Monter en puissance : Une fois les résultats validés, vous passez de 10 % à 25 %, puis 100 % avec une confiance totale.

Que faut-il tester en priorité ?

En résumé : tout ce qui influence le choix du site d’expédition, le mode de transport et le coût final. Voici les catégories les plus porteuses.

Priorisation des sites. Que se passe-t-il si vous passez d’une priorité « proximité client » à « coût de préparation le plus bas » ? Ou si vous favorisez les sites en surstock pour réduire vos coûts de détention ? Tester ces changements vous permet de mesurer précisément quel délai de livraison vous sacrifiez pour faire des économies, et inversement.

Seuils de fractionnement des commandes. À quel moment devient-il rentable de diviser une commande entre deux sites plutôt que d’attendre qu’un seul site puisse l’expédier en entier ? Ajuster ce seuil impacte directement votre taux de colis fractionnés, vos frais de transport et l’expérience client. Un test en direct révèle le véritable point d’équilibre.

Choix du transporteur et du niveau de service. Si votre OMS gère le choix du transporteur, vous pouvez tester si l’envoi de volumes vers un acteur régional permet d’économiser sans dégrader la ponctualité. Vous pouvez aussi tester si le passage à un service plus rapide sur un segment de commandes booste réellement le taux de réachat.

Éligibilité des magasins au fulfillment. Étendre ou restreindre la liste des magasins capables de préparer des commandes e-commerce est une décision stratégique. Un test sur un faible volume permet d’évaluer la précision de la préparation, le temps de traitement et l’impact sur la marge avant un déploiement généralisé.

Limites de distance et de zones. Tester l’impact d’un plafonnement des expéditions au-delà d’une certaine zone permet de voir si cela améliore la marge sans nuire au taux de livraison à temps (OTIF). C’est un aspect que les simulations peinent à modéliser à cause de la variabilité réelle des transporteurs.

Les indicateurs clés pour mesurer le succès

La valeur d’un test A/B dépend entièrement des indicateurs utilisés pour l’évaluer. Voici les dix métriques qui vous donneront une vision complète de l’impact réel de vos changements de règles de sourcing, et les arbitrages qu’elles permettent d’effectuer.

Marge brute moyenne par commande : elle indique la contribution directe en valeur après déduction du coût du produit et des frais logistiques directs. Si votre test améliore ce chiffre, votre sourcing est plus rentable. S’il baisse, vos coûts opérationnels augmentent plus vite que vos gains.

Marge brute moyenne (%) : cet indicateur normalise la marge sur l’ensemble de votre mix de commandes. C’est essentiel si votre groupe de test et votre groupe de contrôle ont des paniers moyens (AOV) légèrement différents. Une amélioration de 5 points ici signifie que votre logique est structurellement plus efficace, et pas seulement « chanceuse » sur des commandes à forte valeur.

Valeur de la marge nette moyenne et % de marge nette : ces indicateurs vont plus loin en intégrant les frais fixes, les coûts de retour et les autres dépenses indirectes. Une règle de sourcing qui semble excellente sur la marge brute peut s’effondrer au niveau net si elle génère plus de retours ou d’appels au service client. Ces deux métriques sont vos garde-fous.

Coût de livraison moyen par commande : c’est la lecture la plus directe de l’efficacité financière de vos décisions de sourcing. Baisser ce coût est souvent l’objectif, mais il ne doit jamais être analysé seul. Une modification qui réduit le coût de livraison de 1,50 € mais fait plonger votre taux de service (OTIF) n’est pas une victoire.

Distance de livraison moyenne : c’est un indicateur prévisionnel pour le coût et la rapidité. Si votre test expédie depuis des sites plus éloignés en moyenne, attendez-vous à un impact négatif sur les coûts et les délais. À l’inverse, si la distance diminue, vous devriez voir une amélioration de la marge et de la rapidité (si le transporteur suit).

Délai moyen commande-livraison (Order-to-Door) : c’est la version « client » de votre promesse de rapidité. C’est ce que le client vit réellement. Un test qui réduit ce délai booste généralement la satisfaction et le réachat. La question d’arbitrage est alors : combien êtes-vous prêt à dépenser pour gagner un jour de livraison ?

Taux de service OTIF (On Time In Full) : c’est sans doute l’indicateur d’expérience client le plus crucial. Il mesure si les commandes sont arrivées à temps et complètes. Un changement qui améliore les marges mais fait baisser l’OTIF est problématique, car les coûts cachés (insatisfaction, perte de valeur client à vie) sont difficiles à chiffrer. L’OTIF est votre « métrique de sécurité » : si elle baisse, le test n’est pas prêt pour un déploiement global.

Temps moyen de préparation (Fulfillment Time) : il mesure la rapidité interne, de la réception de la commande à la remise au transporteur. C’est ici que les tests de préparation en magasin révèlent souvent des limites opérationnelles. Une règle peut paraître séduisante sur le papier, mais si les points de vente ajoutent deux jours de préparation, votre délai de livraison final en pâtira.

Taux de fractionnement des commandes (Split Fulfillment) : cette métrique se situe au carrefour du coût, de l’expérience client et de la complexité. Chaque colis supplémentaire coûte plus cher et dégrade l’expérience. Un test qui réduit le fractionnement sans sacrifier l’OTIF est une victoire totale. Si la marge s’améliore mais que le fractionnement augmente, une analyse fine est nécessaire pour vérifier si l’économie réalisée justifie l’impact négatif sur le client.

Conclusion : décider avec des chiffres, et non à l’instinct

Imaginons que votre test réduise les coûts de livraison de 1,80 €, mais que le client reçoive son colis avec un jour de retard. Est-ce une victoire ? Grâce à l’A/B Testing, cette question devient une décision stratégique basée sur des faits. Sans test, vous auriez appliqué le changement à tout le monde, en espérant que cela marche, et vous auriez mis des mois à comprendre pourquoi vos clients se plaignent.

L’avenir appartient aux managers logistiques qui apprennent plus vite que leurs concurrents.

Logistique : arrêtez de deviner, passez à l’A/B Testing

Qu’est-ce que l’A/B Testing pour un OMS ?

Pourquoi le test « en direct » est supérieur à la simulation ?

La puissance des tests à faible volume

Que faut-il tester en priorité ?

Les indicateurs clés pour mesurer le succès

Conclusion : décider avec des chiffres, et non à l’instinct

Et si chaque extension de votre OMS était une fonction "Serverless" ?

OMS : Votre serveur MCP est-il à la hauteur ?

Des agents d’IA plus intelligents grâce aux données OMS