L'IA casse GitHub, déforme les promos, redessine les équipes : la facture du passage à l'échelle
Aurélien Allienne
Publié le • 6 min de lecture
L’IA casse GitHub, déforme les promos, redessine les équipes : la facture du passage à l’échelle
GitHub en panne à cause de la charge de ses propres agents. Des ingénieurs Meta qui brûlent des millions de tokens pour rien. Un Codex qui tourne six heures tout seul pendant que tu dors. On est passés de “l’IA va m’aider à coder” à “l’IA tourne à ma place, casse mon infra, déforme mes incentives”. Comment on pilote une équipe quand l’outil consomme plus que les humains ?
Quand les agents cassent leur propre plateforme
Le 5 mai, GitHub a connu six grosses incidents en une journée [1]. La cause n’est ni un déploiement raté ni une attaque : c’est la charge générée par les agents de codage eux-mêmes. Codex, Claude Code, Copilot et leurs cousins clonent, lisent, commitent à un rythme que les humains ne tiendraient pas. Gergely Orosz pose la vraie question : pourquoi GitHub plus que GitLab ou Bitbucket ? Parce que c’est le centre de gravité de l’écosystème — donc le premier à plier.
Ce qui est intéressant, c’est que la même semaine, AWS sort en GA son MCP Server [2] : un serveur managé qui donne aux agents un accès authentifié à 15 000+ APIs AWS, avec des outils compacts qui ne bouffent pas la fenêtre de contexte. Le message est clair côté hyperscaler : on ne lutte pas contre les agents, on construit l’infra pour les absorber. La charge agentique devient une couche métier comme le mobile l’a été en 2010.
Six heures de Codex sans toi : le contrat change
Sur le terrain, le shift est radical. Codex CLI a sorti /goal fin avril : une commande qui persiste un objectif au-delà des sessions, des reboots, des fermetures de laptop [3]. L’auteur raconte avoir fermé son ordi à 21h19, l’avoir rouvert le lendemain matin : /goal avait repris tout seul, sans qu’il tape la moindre commande. 6h44 de wall time, 41 minutes de calcul effectif, 6,8M de tokens consommés, status final : TASK_COMPLETE.
“It is not just a new command. It is a different contract between you and the agent.”
Ce nouveau contrat, ce sont les “10 lessons for agentic coding” de Drew Breunig qui en posent les règles [4] : implémenter pour apprendre, reconstruire souvent, investir massivement dans les tests end-to-end, documenter l’intent. Quand le code devient bon marché, ce qui reste cher c’est le pourquoi. Les tests décrivent les buts, le code encode les méthodes — l’intent, lui, n’est nulle part si tu ne l’écris pas.
Quand le ROI devient un sujet de COMEX
Côté direction, l’IA n’est plus une expérimentation. C’est une ligne budgétaire qu’il faut justifier. Le rapport DORA 2026 sur le ROI de l’IA dans le développement logiciel [5] pose un constat brutal : l’IA est un amplificateur, pas un transformateur. Elle magnifie les forces des équipes performantes et les dysfonctions des équipes en galère. Sans fondations solides, l’IA crée “des poches de productivité localisées qui se perdent dans le chaos en aval”.
Et la courbe d’adoption suit un J-curve : la productivité baisse avant de remonter. Mesurer le ROI sans baseline, c’est confondre un gain réel avec un déplacement d’effort vers une autre étape du cycle. La question est devenue politique : sans chiffres défendables, les budgets IA ne se renouvellent plus.
Tokenmaxxing : Goodhart frappe à la porte
Le piège, c’est de mal mesurer. Coinbase a annoncé ses layoffs en demandant aux employés restants d’utiliser plus l’IA [6]. Meta avait créé un leaderboard interne qui comptait les tokens consommés. Tu devines la suite : des ingénieurs ont écrit des scripts qui brûlaient des millions de tokens pour rien, juste pour grimper dans le classement. Meta a fini par fermer le leaderboard.
C’est Goodhart’s Law dans toute sa splendeur : “quand une mesure devient une cible, elle cesse d’être une bonne mesure”. Et ça rejoint le vieux problème du promomaxxing chez Google — produire de la complexité artificielle pour justifier sa promo. L’IA n’élimine pas les incentives biaisés : elle les déplace et les amplifie. Les benchmarks de coding IA mesurent eux aussi les mauvaises choses [7] : ils évaluent si le code “fonctionne” en isolation, jamais s’il s’intègre, s’il est maintenable, s’il survit à un audit. On optimise un proxy au lieu d’optimiser la valeur.
Replan, revalidate : l’inversion du métier
Dans une table ronde à DX Annual, des CTOs de Microsoft, 1Password et Atlassian décrivent ce qui change concrètement [8]. Historiquement, 80% du temps eng allait à operate, 10-15% à create, le reste à plan/validate/deploy. Aujourd’hui, dans les meilleures équipes, plan et validate consomment la majorité du temps — parce que create et operate sont compressés par l’IA.
“Don’t delegate validate to AI yet. We still need humans in the loop for important systems.”
Chez 1Password, ils ont arrêté d’écrire des PRDs longs : les équipes prototypent et confrontent direct au client. Ça a éliminé la moitié des allers-retours produit/eng. Le rôle change : moins de production, plus de jugement. Plus de tastemaker, moins de typer.
Ce qui se redessine, c’est la responsabilité du manager. Tu ne peux plus piloter avec des KPIs de tokens ou de PRs mergées. Il faut redonner du sens au why, recréer des rituels où la conversation existe encore — et ça commence par les 1:1, qui ne doivent surtout pas devenir des reportings de status que l’IA pourrait pondre [9].
L’IA force une question simple : qu’est-ce que tu mesures vraiment, et est-ce que ça reflète encore la valeur que tu produis ?
Sources
- The Pulse: AI load breaks GitHub – why not other vendors?
- The AWS MCP Server is now generally available
- /goal: The Six-Hour Codex Run That Survived a Five-Hour Pause
- 10 Lessons for Agentic Coding
- RDEL #141: How can engineering leaders calculate the return on their AI investments?
- Tokenmaxxing, Promomaxxing, and Misaligned Incentives in Tech
- AI Coding Benchmarks Are Measuring the Wrong Things
- Designing the AI-native engineering organization
- How to one-on-one
Pour aller plus loin
- Behind the Scenes Hardening Firefox with Claude Mythos Preview — comment Mozilla a utilisé Claude pour trouver des bugs sécurité dormants depuis 15 ans, l’envers décor de l’IA défensive.
- Anthropic Skill scanners passed every check. The malicious code rode in on a test file. — la nouvelle surface d’attaque des Skills, et pourquoi tes scanners ne regardent pas où il faut.
- Improving token efficiency in GitHub Agentic Workflows — l’autre face du tokenmaxxing : comment optimiser réellement la consommation d’un workflow agentique.
- agents need control flow, not more prompts — pourquoi multiplier les prompts ne suffit plus : la prochaine étape, c’est le contrôle de flux explicite.
Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.
Pour aller plus loin
— comment Mozilla a utilisé Claude pour trouver des bugs sécurité dormants depuis 15 ans, l'envers décor de l'IA défensive.
— la nouvelle surface d'attaque des Skills, et pourquoi tes scanners ne regardent pas où il faut.
— l'autre face du tokenmaxxing : comment optimiser réellement la consommation d'un workflow agentique.
— pourquoi multiplier les prompts ne suffit plus : la prochaine étape, c'est le contrôle de flux explicite.
Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.