GPT-5.4 mini tourne 2x plus vite. Votre organisation, elle, est toujours aussi lente.
Aurélien Allienne
Publié le • 6 min de lecture
GPT-5.4 mini tourne 2x plus vite. Votre organisation, elle, est toujours aussi lente.
OpenAI vient de sortir deux nouveaux modèles optimisés pour la vitesse. Mistral lance une plateforme d’entraînement sur mesure pour les entreprises. Cursor entraîne ses agents à résumer leur propre contexte pour travailler plus longtemps. Tout accélère — sauf, visiblement, la livraison logicielle. Et si le problème n’avait jamais été la vitesse du code ?
La course aux modèles compacts
GPT-5.4 mini et nano sont disponibles depuis aujourd’hui [1]. Mini tourne 2x plus vite que GPT-5 mini tout en s’approchant des scores de GPT-5.4 sur SWE-Bench Pro (54,4% vs 57,7%). Nano, encore plus léger, cible les sous-tâches rapides : classification, extraction, agents de support. Le message d’OpenAI est clair — le meilleur modèle n’est plus le plus gros, c’est celui qui répond assez vite pour ne pas casser l’expérience produit.
Côté Mistral, c’est un autre registre. Forge permet aux entreprises d’entraîner des modèles “frontier-grade” sur leurs propres données [2]. Pré-entraînement, post-training, reinforcement learning — le tout sur des données internes, avec ASML, Ericsson et l’Agence Spatiale Européenne comme premiers clients. L’idée : les modèles généralistes ne suffisent plus quand votre domaine a son propre vocabulaire, ses propres contraintes, sa propre logique.
Quand l’IA accélère le mauvais goulot d’étranglement
Mais pendant que les modèles deviennent plus rapides, un signal d’alarme remonte du terrain. Gergely Orosz (The Pragmatic Engineer) documente ce que beaucoup soupçonnaient : les agents IA ralentissent certaines équipes au lieu de les accélérer [3]. Chez Anthropic, un bug UX irritant sur le site flagship de Claude est passé inaperçu. Chez Amazon, les agents IA des juniors ont provoqué une hausse d’incidents en production — résultat : validation senior obligatoire sur tout code assisté par IA. Uber traque la consommation de tokens IA dans les évaluations de performance, sans aucune mention de la qualité produit.
Andrew Murphy enfonce le clou avec Goldratt et la Théorie des Contraintes [4].
“When you optimise a step that is not the bottleneck, you don’t get a faster system. You get a more broken one.”
Votre VP qui célèbre “+40% de code output” a trouvé la seule station de la chaîne qui n’était pas le goulot, et l’a accélérée. Le vrai bottleneck — review, tests, déploiement, discovery — reste inchangé. Le code supplémentaire s’entasse entre les étapes. L’inventaire monte. La qualité baisse.
Chaque couche de validation vous ralentit 10x
Apenwarr (ex-Google, Tailscale) quantifie cette intuition avec un ratio brutal [5] : chaque couche d’approbation multiplie le wall-clock time par 10. Un fix simple prend 30 minutes à coder. Le code review du voisin : 5 heures. L’approbation d’une design doc par l’équipe archi : une semaine. La planification inter-équipes : un trimestre.
Et l’IA ne change rien à ça. Claude code le fix en 3 minutes au lieu de 30 ? Soit vous passez 27 minutes à relire le code dans une boucle avec l’agent, soit vous envoyez du “slop” non vérifié au reviewer, qui met toujours 5 heures — mais qui est maintenant furieux.
Les agents qui apprennent à mieux travailler
Là où ça devient intéressant, c’est quand les outils eux-mêmes s’adaptent. Cursor a publié sa technique de “self-summarization” [6] : au lieu de simplement tronquer le contexte quand il déborde, Composer apprend via reinforcement learning à résumer son propre travail. Le résultat : des trajectoires de centaines d’actions sur des tâches de code complexes, sans perte d’information critique.
Anthropic partage ses leçons sur les Skills de Claude Code [7]. Avec des centaines de skills en usage interne, le pattern qui émerge est clair : les meilleures skills ne sont pas “juste des fichiers markdown” — ce sont des dossiers avec scripts, assets, hooks, qui transforment l’agent en spécialiste vérifiable d’un workflow précis. Skills de vérification qui filment la sortie de l’agent. Skills de migration qui appliquent des patterns à l’échelle du codebase. Le vrai levier n’est pas le modèle — c’est le système qui l’encadre.
Sarah Chieng pousse l’exploration plus loin avec l’autoresearch [8]. Un agent lancé overnight sur un problème d’optimisation de modèle a abandonné l’expérience assignée pour partir sur sa propre piste de recherche. 12 heures de GPU gaspillées. La leçon : l’autoresearch fonctionne quand la boucle est serrée et bien scopée — 71 expériences ont produit de vrais résultats. Mais desserrez les garde-fous, et l’agent dérive en quelques heures.
L’IPO comme accélérateur de lucidité
En toile de fond, la course à l’IPO redessine les priorités [9]. OpenAI, Anthropic et xAI se préparent à entrer en bourse dans une fenêtre qui se réduit — si les trois offrent 15% de leurs parts, la somme combinée équivaudrait à tout l’argent levé en IPO aux États-Unis sur la dernière décennie. Simo a demandé aux équipes OpenAI d’arrêter les “side quests” — Sora, le navigateur Atlas, un device hardware — pendant que son rival le plus focalisé mangeait ses parts de marché. La fuite contrôlée vers le Wall Street Journal ? Un signal envoyé aux investisseurs : on a compris, on se concentre.
Conclusion
Les modèles accélèrent. Les agents s’améliorent. Mais la vraie question reste organisationnelle : est-ce que vous optimisez le bon goulot d’étranglement, ou est-ce que vous construisez un embouteillage plus rapide ?
Sources
- Introducing GPT-5.4 mini and nano
- Introducing Forge
- Are AI agents actually slowing us down?
- If you thought the speed of writing code was your problem - you have bigger problems
- Every layer of review makes you 10x slower
- Training Composer for longer horizons
- Lessons from Building Claude Code: How We Use Skills
- How to stop your autoresearch loop from cheating
- OpenAI Has New Focus (on the IPO)
Pour aller plus loin
- Does splitting work across AI agents actually save time? I tested it. — Benchmark de 5 architectures multi-agents sur la même tâche : les chiffres réels derrière le hype de la parallélisation
- Python 3.15’s JIT is now back on track — Le JIT de CPython affiche 11-12% de gains sur macOS ARM, un an avant l’objectif — une histoire de communauté autant que de performance
- Temporal: The 9-Year Journey to Fix Time in JavaScript — Bloomberg raconte les 9 ans de travail pour remplacer Date en JavaScript — un rappel que les vrais standards prennent du temps
- Edge.js: Running Node apps inside a WebAssembly Sandbox — Wasmer open-source un runtime Node.js sandboxé via WebAssembly, compatible nativement et sans Docker
- Ranking Engineer Agent (REA): The Autonomous AI Agent Accelerating Meta’s Ads Ranking Innovation — Comment Meta a construit un agent autonome qui optimise le ranking publicitaire à grande échelle
Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.
Pour aller plus loin
— Benchmark de 5 architectures multi-agents sur la même tâche : les chiffres réels derrière le hype de la parallélisation
— Le JIT de CPython affiche 11-12% de gains sur macOS ARM, un an avant l'objectif — une histoire de communauté autant que de performance
— Bloomberg raconte les 9 ans de travail pour remplacer Date en JavaScript — un rappel que les vrais standards prennent du temps
— Wasmer open-source un runtime Node.js sandboxé via WebAssembly, compatible nativement et sans Docker
— Comment Meta a construit un agent autonome qui optimise le ranking publicitaire à grande échelle
Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.