L'IA en entreprise change de phase : on n'achète plus des modèles, on construit des harnais
Aurélien Allienne
Publié le • 6 min de lecture
L’IA en entreprise change de phase : on n’achète plus des modèles, on construit des harnais
Anthropic dit que 70 à 90% de son code est écrit par IA, et embauche des ingénieurs à 570 000 dollars [1]. Chez Cloudflare, 93% de l’organisation R&D utilise des outils de codage AI, avec 47,95 millions de requêtes en 30 jours [2]. Et pourtant la grande question de cette semaine n’est plus “quel modèle on prend ?” — c’est “qu’est-ce qu’on construit autour ?”. L’IA d’entreprise vient de basculer dans sa phase ingénierie.
Le canari à 570K
Boris Cherny, créateur de Claude Code, dit qu’il n’a pas écrit une ligne de code à la main depuis des mois. 22 PR un jour, 27 le lendemain, tout généré par IA [1]. Jensen Huang, lui, lâche pendant le GTC qu’un ingénieur à 500K qui ne consomme pas au moins 250K de tokens par an, c’est comme un de ses concepteurs de puces qui décide de revenir au papier et au crayon.
Dans le même temps, Anthropic continue d’ouvrir des dizaines de postes à six chiffres. Cherchez l’erreur. Sauf qu’il n’y en a pas : c’est exactement le paradoxe de Jevons. Quand les distributeurs automatiques sont arrivés, l’emploi des guichetiers de banque n’a pas chuté — il a doublé entre 1970 et 2006, parce que les opérations devenues moins chères ont multiplié les agences [1]. Les ingénieurs ne sont pas des employés de péage. Ce sont des guichetiers. L’IA absorbe le boilerplate ; ce qui reste, c’est tout le reste — et ce reste, il faut le harnacher.
Le harnais compte plus que le modèle
Nicolas Bustamante a passé une semaine à faire tourner Claude Code, Codex CLI et GitHub Copilot CLI sur les mêmes fichiers, le même git, le même bash. Trois harnais qui se ressemblent. Trois comportements visiblement différents [3].
Sa thèse : les modèles sont post-entraînés contre un harnais, pas seulement contre une API. Les noms d’outils, les schémas d’entrée, les tags de citation, la structure des skills, le protocole de planification — ce sont des conventions au niveau byte cuites dans le post-training. Sortez le modèle de son harnais, vous abandonnez de la performance.
Swapping orchestrators is not a cosmetic change. It is a model swap in disguise.
C’est une nouvelle façon de penser la stack : ce n’est plus “quel LLM ?”, c’est “quel couple modèle-harnais ?”. Et toute équipe qui a essayé de construire un agent “model-agnostic” a fini par se cogner à ce mur [3].
Reconstruire la senior-engineer scaffolding
Addy Osmani, lui, attaque le problème par l’autre bout. Le comportement par défaut d’un agent de coding ? Prendre le chemin le plus court vers “done”. Pas de spec, pas de test avant l’implémentation, pas de check de trust boundary, pas de reflexion sur ce que la PR va donner pour le reviewer [4].
C’est exactement le mode d’échec qu’un ingénieur senior passe sa carrière à éviter. Tout ce qui ne se voit pas dans le diff — les hypothèses qu’on remonte, le découpage en morceaux reviewables, le design ennuyeux qu’on choisit, les preuves qu’on laisse derrière soi — les agents le sautent par défaut. Son projet Agent Skills (26K stars) tente de remettre cet échafaudage senior par-dessus l’agent : non pas comme de la documentation, mais comme un workflow avec checkpoints, preuves et critère de sortie [4].
Mettez les deux ensemble — Bustamante et Osmani — et vous avez la nouvelle équation : modèle + harnais + skills. Ce qu’on appelait “prompt engineering” il y a 18 mois, c’est devenu une pratique d’ingénierie à part entière.
Le control plane des agents : Cisco, Google, Pipelock
Une fois que les agents font le travail, la question devient : qui les contrôle ? Cette semaine, trois signaux concordants.
Cisco rachète Astrix Security pour sécuriser les identités machines et agents — gestion du cycle de vie des credentials, détection d’anomalies, contrôle d’accès [5]. Google déploie son AI control center sur Workspace pour qu’un admin puisse gérer finement quels agents accèdent à quelles données [6]. Pipelock sort en open source : un firewall pour agents, qui inspecte les appels d’outils, bloque les patterns dangereux et journalise tout ce qui passe [7].
Le pattern est clair. On bâtit autour des agents un control plane qui ressemble furieusement à ce qu’on a mis 20 ans à construire pour les humains : IAM, journalisation, segmentation, observabilité. Sauf qu’on doit le refaire en 18 mois — pour des entités qui agissent à la milliseconde.
Repenser l’architecture : SLM et division du travail
Pendant que la couche de contrôle se construit, l’architecture LLM elle-même se diversifie. Les Small Language Models (1 à 7 milliards de paramètres, vs des centaines de milliards pour les LLM frontier) prennent leur place — pas en remplacement, mais en division du travail [8].
The pattern is closer to a better division of labor. A routing architecture sends simple or well-scoped queries to a specialized small model, and complex queries to a large model.
Distillation, pruning, quantization : on apprend à faire de l’IA spécialisée, locale, rapide, privée. C’est une réponse pragmatique au problème que tout le monde connaît : la facture d’inference ne tient pas, et tout n’a pas besoin de GPT-5.5 [8].
Ce que ça change pour nous
Si je relie tous ces fils — le harnais qui compte plus que le modèle, les skills qui remettent du senior dans l’agent, le control plane qui se construit, les SLM qui prennent leur place — ce qui se dessine, c’est une nouvelle compétence : architecte d’agents.
Ce n’est plus “intégrer un LLM”. C’est concevoir un système qui couple un modèle, un harnais, des skills, un firewall, une politique d’accès, un routage SLM/LLM, une observabilité. Le travail d’engineering autour de l’IA explose au moment même où certains pensaient qu’il allait disparaître.
Le canari à 570K, ce n’est pas la mort des ingénieurs. C’est l’enchère pour ceux qui savent construire ces stacks-là.
Et chez vous, qui s’occupe du harnais ?
Sources
- The $570K canary: What AI coding agents reveal about enterprise AI’s real gaps
- The AI engineering stack we built internally — on the platform we ship
- Nicolas Bustamante on X: “Model-Harness-Fit”
- Agent Skills
- Cisco grabs Astrix to secure AI agents
- Google Workspace Updates: Securely manage AI and agent access to Workspace data with the AI control center
- Pipelock: Open-source AI agent firewall
- Small language models: Rethinking enterprise AI architecture
Pour aller plus loin
- Introducing deepsec: The security harness for finding vulnerabilities in your codebase — Vercel ouvre un harnais de sécurité piloté par Claude et Codex, parfaite illustration de la thèse “le harnais compte” appliquée au security scanning.
- How OpenAI delivers low-latency voice AI at scale — Le détail de la nouvelle stack WebRTC d’OpenAI : ce que ça veut dire que de bâtir une infra pour 900 millions d’utilisateurs voix par semaine.
- Import AI 455: Automating AI Research — Jack Clark estime à 60%+ la probabilité d’une R&D IA totalement automatisée d’ici fin 2028. Lecture à froid recommandée.
- GitHub - mnfst/manifest: Smart Model Routing for Agents. Cut Costs up to 70% — Le routage modèle dont parle l’article SLM, en code open source.
Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.
Pour aller plus loin
— Vercel ouvre un harnais de sécurité piloté par Claude et Codex, parfaite illustration de la thèse "le harnais compte" appliquée au security scanning.
— Le détail de la nouvelle stack WebRTC d'OpenAI : ce que ça veut dire que de bâtir une infra pour 900 millions d'utilisateurs voix par semaine.
— Jack Clark estime à 60%+ la probabilité d'une R&D IA totalement automatisée d'ici fin 2028. Lecture à froid recommandée.
— Le routage modèle dont parle l'article SLM, en code open source.
Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.