🦉
Le Veilleur
Les agents IA sortent de la sandbox — et l'entreprise n'est pas prête.

Les agents IA sortent de la sandbox — et l'entreprise n'est pas prête.

Aurélien Allienne

Aurélien Allienne

Publié le • 6 min de lecture

Les agents IA sortent de la sandbox — et l’entreprise n’est pas prête.

30 % des déploiements Vercel sont désormais initiés par des agents de codage. En six mois, ce chiffre a bondi de 1 000 %. Pendant ce temps, Anthropic et Ramp déploient des agents à l’échelle de l’entreprise entière. La question n’est plus “est-ce que les agents vont arriver en production ?” — c’est “est-ce qu’on est prêt à les gouverner ?”

L’anatomie d’un agent de codage

Pour comprendre ce qui se passe, il faut d’abord décomposer la machine. Sebastian Raschka vient de publier une référence utile : les six briques fondamentales d’un agent de codage [1]. Le LLM est le moteur, le modèle de raisonnement est un moteur boosté, et le harness agent — c’est le châssis complet : contexte du repo, outils, gestion de la mémoire, continuité de session longue.

« When we talk about the coding capabilities of LLMs, people often collapse the model, the reasoning behavior, and the agent product into one thing. »

C’est la distinction clé. Claude Code ou Codex CLI ne sont pas “juste un meilleur chat” — ce sont des systèmes où le prompt-cache, la stabilité du contexte et le design des outils comptent autant que le modèle lui-même. Et c’est exactement pour ça que l’infrastructure autour de l’agent est devenue le vrai champ de bataille.

L’entreprise passe à l’échelle

Claude Cowork vient d’atteindre la disponibilité générale sur tous les plans payants [2]. Le signal le plus intéressant : la majorité de l’usage ne vient pas des équipes d’ingénierie. Ce sont les opérations, le marketing, la finance et le juridique qui délèguent à Claude — pas leur cœur de métier, mais tout le travail périphérique : mises à jour projet, decks de collaboration, sprints de recherche. Anthropic accompagne avec les contrôles enterprise : RBAC, limites de dépenses par groupe, analytics d’usage et support OpenTelemetry.

En parallèle, Anthropic lance les Claude Managed Agents — un harness pré-construit avec infrastructure managée, containers sécurisés, exécution d’outils et sessions persistantes [3]. Plus besoin de construire sa propre boucle agent : on définit un agent, un environnement, on lance une session, et Claude exécute de manière autonome.

Chez Ramp, l’approche est encore plus radicale. Après avoir atteint 99 % d’adoption des outils IA, ils ont constaté que la plupart des employés étaient bloqués par la configuration — terminaux, npm, MCP [4]. Leur réponse : Glass, une suite IA interne où tout est pré-configuré. Un commercial demande à Glass de croiser des données Gong et Salesforce pour rédiger un follow-up, et ça marche direct. Leur principe : “One person’s breakthrough should become everyone’s baseline.”

L’infrastructure change de nature

Vercel pose le cadre théorique de ce qui est en train de se passer [5]. Les déploiements hebdomadaires ont doublé en trois mois. Claude Code représente 75 % des déploiements initiés par des agents. Et les projets déployés par des agents sont 20 fois plus susceptibles d’appeler des providers d’inférence IA que ceux déployés par des humains.

« Agents are writing software that uses AI, and agents are building agents. »

L’infrastructure doit suivre trois évolutions simultanées : servir de cible de déploiement pour les agents, fournir les briques pour construire et faire tourner des agents, et devenir elle-même agentique — capable de s’auto-diagnostiquer et de s’adapter.

Le code propre, impératif partagé

Voici ce qui relie agents et humains : un code mal structuré les ralentit tous les deux. Un article de Yanist résume bien le point [6] : les agents, comme les humains, sont plus productifs dans une codebase propre. Lisibilité, modularité, convention de nommage — ce qui aide un développeur à s’orienter aide aussi le LLM à produire un meilleur output.

C’est exactement ce que diagnostique l’audit “Codebase Drag” d’Ally Piechowski [7]. Quand une équipe met une semaine à ajouter un export CSV, le problème n’est pas les gens — c’est la codebase. Cinq signaux à surveiller : les estimations “en connaissant cette codebase”, les développeurs qui s’excusent avant de donner un délai, les changements qui touchent des modules sans rapport. Ce “drag” freine les humains autant que les agents.

Le prix de la confiance

Mais à mesure que les agents gagnent en autonomie, la question de la confiance devient critique. Un développeur a découvert que le plugin Vercel pour Claude Code demandait à lire tous ses prompts — sur tous les projets, y compris ceux sans aucun lien avec Vercel [8]. Pire : le consentement n’était pas une vraie interface utilisateur, mais une injection de prompt déguisée en question native de Claude Code.

« A deployment plugin is asking to read every prompt you type, across every project. Why? »

Les données “anonymes” incluaient les commandes bash complètes, envoyées aux serveurs Vercel. Le tout sans indication que c’était optionnel. C’est un signal d’alarme pour tout l’écosystème des plugins agent : quand un outil tiers peut injecter des instructions comportementales dans le contexte de l’agent, la frontière entre aide et surveillance devient floue.

Ce que 90 % de vos compétences deviennent

Kent Beck l’a dit en 2023 : “90% of my skills just went to zero dollars. 10% of my skills just went up 1000x.” Deux ans plus tard, l’analyse de Pere Villega met des chiffres dessus [9]. Paul Ford a estimé le remplacement d’un weekend de travail agent à 350 000 dollars de développement traditionnel. Un solo développeur a reproduit un concurrent financé à 16 millions en deux semaines avec Claude Code.

Le 10 % qui reste ? La vision, la capacité à fixer des milestones, à contrôler la complexité. Le “context engineering” — la compétence qui a remplacé le prompt engineering. Le code est devenu bon marché. Le jugement, lui, n’a jamais été aussi cher.

Le mot de la fin

Les agents sont en production. Ils déploient, ils collaborent, ils écrivent des agents qui écrivent des agents. Mais entre l’adoption à 99 % et la gouvernance à 0 %, il y a un gouffre. La vraie question pour les leaders tech n’est pas “comment accélérer encore ?” — c’est “comment garder le contrôle sans freiner l’élan ?”

Sources

  1. Components of A Coding Agent
  2. Making Claude Cowork ready for enterprise
  3. Claude Managed Agents overview
  4. We Built Every Employee at Ramp Their Own AI Coworker
  5. Agentic Infrastructure
  6. Clean code in the age of coding agents
  7. “Why Your Engineering Team Is Slow (It’s the Codebase, Not the People)”
  8. The Vercel Plugin on Claude Code wants to read all your prompts!
  9. Code Is Cheap Now, And That Changes Everything

Pour aller plus loin

Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.

Pour aller plus loin

How Spotify Ships to 675 Million Users Every Week Without Breaking Things

— L'architecture de release de Spotify où vitesse et stabilité se renforcent mutuellement, un modèle à méditer à l'ère des déploiements agents

Stopping power: The leadership skill that separates modern IT leaders

— Savoir arrêter un projet est devenu la compétence de leadership la plus sous-estimée face à l'accélération IA

GitHub - stanford-scs/jai: Jail your AI agent

— Stanford publie un framework pour sandboxer les agents IA — exactement le type d'outil dont l'écosystème a besoin

I Still Prefer MCP Over Skills

— Un retour d'expérience argumenté sur le débat MCP vs skills dans l'outillage des agents

Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.