Quand l'IA devient un KPI : la course aux tokens contre la vraie collaboration
Aurélien Allienne
Publié le • 6 min de lecture
Quand l’IA devient un KPI : la course aux tokens contre la vraie collaboration
Et si la pire chose qui pouvait arriver à l’adoption de l’IA en entreprise, c’était… qu’on la mesure ? Chez Amazon, plus de 80 % des développeurs sont désormais sommés d’utiliser des outils IA chaque semaine, et la consommation de tokens s’affiche sur des leaderboards internes [1]. Résultat : on automatise du vide pour gonfler ses chiffres. Bienvenue dans l’ère du tokenmaxxing.
Le KPI qui mange la productivité
La scène est presque comique. Des employés d’Amazon utilisent MeshClaw, l’outil d’agents internes inspiré d’OpenClaw, pour automatiser des tâches « inutiles » dont le seul but est d’augmenter leur consommation de tokens et bien apparaître sur les dashboards [1]. Officiellement, ces statistiques ne servent pas aux évaluations de performance. Officieusement, « les managers regardent » — et quand on traque l’usage, on crée des incitations perverses. Charlie Munger l’avait formulé bien avant l’IA : « Show me the incentive and I’ll show you the outcome. »
Le plus inquiétant n’est pas la triche en elle-même. C’est que des gens lucides confient à demi-mot leur malaise : « La posture de sécurité par défaut me terrifie. Pas question de laisser cet agent faire son truc tout seul » [1]. Quand l’organisation pousse à l’usage et non à la valeur, le développeur protège son score, pas son code.
Ce que devrait être la collaboration avec une IA
Pendant ce temps, Thinking Machines publie sa preview des interaction models : des modèles qui ne traitent plus l’interactivité comme un harnais bricolé autour d’un LLM, mais comme une capacité native [2]. L’idée est forte : les modèles actuels vivent sur un seul fil. Tant que l’utilisateur n’a pas fini de parler ou de taper, l’IA ne perçoit rien. Tant que l’IA n’a pas fini de générer, elle est sourde au monde. C’est une réunion qui se ferait par e-mails.
For interactivity to scale with intelligence, it must be part of the model itself. — Thinking Machines
Les auteurs proposent un design en micro-tours, alignés sur le temps réel, où humain et modèle perçoivent et répondent en même temps — audio, vidéo, texte. Un second modèle, asynchrone en arrière-plan, prend en charge le raisonnement long pendant que le modèle d’interaction garde le fil [2]. C’est exactement l’inverse de la course au token : on optimise la qualité du dialogue, pas le volume d’inférence.
Et pendant ce temps, l’IA réécrit le paysage des langages
Noah Mitchem pose la question qui dérange : si l’IA écrit ton code, pourquoi utiliser Python ? [3]. Son argumentaire est solide : en avril 2026, Claude Opus 4.7, GPT-5.5, Gemini 3.1 et DeepSeek V4 ont tous franchi les 80 % sur SWE-bench Verified. Les labos optimisent désormais pour les langages systèmes. Microsoft a réécrit le compilateur TypeScript en Go, 10× plus rapide. Nicholas Carlini, chez Anthropic, a orchestré 16 agents Claude en parallèle pour produire un compilateur C en Rust de 100 000 lignes — boot Linux, QEMU, FFmpeg, SQLite, Postgres, Doom — pour 20 000 dollars [3].
The best argument for Rust in 2026 is not memory safety or performance. It is that AI writes better Rust than it writes C++.
L’argument « mais l’écosystème Python est imbattable » s’effrite : pydantic, polars, tokenizers, orjson, uv, ruff… tous sont en Rust derrière une façade Python. Le langage que tu choisis n’est plus dicté par ta vitesse à toi, mais par la boucle de feedback la plus serrée pour un agent.
Le maillon faible reste humain : on se parle mal
Toute cette mécanique repose pourtant sur un humain qui doit décider, communiquer, embarquer. Et là, on est encore très mauvais. Roman Pichler raconte une scène universelle : tu introduis un nouveau champ dans ton workflow ticketing, tu l’expliques en réunion. Le lendemain, la moitié de l’équipe te demande comment l’utiliser [4]. Un message ne traverse pas l’organisation en un tir. Il faut traverser quatre étapes — unawareness → understanding → familiarity → adoption — et chacune demande de la répétition. « Repeat until it hurts », dit-il : c’est quand toi tu en as marre de répéter que le message commence à atterrir chez les autres.
Et même répété, ça ne suffit pas toujours. Petra Wille raconte avoir passé six mois à mendier l’adhésion sur sa vision « One Doodle » : World Cafe, prototypes vidéo, Miro boards, déclinaisons en cinq formats… [5]. Plus elle expliquait, plus elle suppliait. Le piège du buy-in : transformer la conviction des autres en validation pour soi. Sortir de ce piège, c’est accepter qu’on peut avancer sans applaudissements et que le rôle n’est pas de plaire mais de décider.
Tenir, sans s’épuiser
Le contexte ne va pas se simplifier. Pression sur l’adoption IA, KPIs qui mesurent ce qui se mesure, équipes qui n’entendent pas du premier coup, vision qu’on défend seul. Comment on tient ? Le guide « How to Stay Resilient » donne sept principes, et le premier est limpide : la résilience n’a rien à voir avec la pensée positive forcée [6]. Elle consiste à préserver son énergie, sa perspective et son sens du contrôle. Cadrer la journée avant qu’elle commence. Stabiliser le corps avant le rush. Se concentrer sur ce qu’on contrôle aujourd’hui. Garder ses standards même si le système n’en a plus. Trouver une personne de confiance.
Et garder en vue qu’une meilleure suite est possible — pas dans dix ans, dans les six prochains mois. L’espoir, c’est du mouvement [6].
La vraie question pour 2026 n’est peut-être pas « ton équipe utilise-t-elle assez l’IA ? », mais « ton équipe utilise-t-elle l’IA pour faire un meilleur boulot, ou pour bien apparaître sur un dashboard ? ». On choisit ce qu’on mesure. Et ce qu’on mesure finit par nous choisir en retour.
Sources
- Amazon employees are “tokenmaxxing” due to pressure to use AI tools
- Interaction Models: A Scalable Approach to Human-AI Collaboration
- If AI Writes Your Code, Why Use Python?
- Repeat Until It Hurts
- The Buy-In Trap - I Spent Six Months Begging for Buy-In
- How to Stay Resilient in a Difficult Job
Pour aller plus loin
- Twin brothers wipe 96 gov’t databases minutes after being fired — l’autre face du dashboard IA : les processus offboarding et le risque insider restent terriblement humains.
- Microsoft BitLocker-protected drives can now be opened with just some files on a USB stick — YellowKey zero-day exploit — rappel que la sécurité par défaut n’est jamais acquise, même quand elle est activée out-of-the-box sur des millions de machines.
- Learning Software Architecture — un texte court et profond : l’architecture compte plus que le code, et la structure sociale compte plus que l’architecture (Conway revisité).
- ML and LLM Inference Latency: 10 techniques every AI/ML engineer should know — pour quand on quitte le théâtre du KPI et qu’on attaque la vraie performance des modèles en prod.
Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.
Pour aller plus loin
— l'autre face du dashboard IA : les processus offboarding et le risque insider restent terriblement humains.
— rappel que la sécurité par défaut n'est jamais acquise, même quand elle est activée out-of-the-box sur des millions de machines.
— un texte court et profond : l'architecture compte plus que le code, et la structure sociale compte plus que l'architecture (Conway revisité).
— pour quand on quitte le théâtre du KPI et qu'on attaque la vraie performance des modèles en prod.
Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.