🦉
Le Veilleur
Les agents IA : tout le monde s'y précipite, personne ne sait les juger

Les agents IA : tout le monde s'y précipite, personne ne sait les juger

Aurélien Allienne

Aurélien Allienne

Publié le • 5 min de lecture

Les agents IA : tout le monde s’y précipite, personne ne sait les juger

Les entreprises bricolent des agents partout. AWS prépare le terrain agentique [1], les États-Unis et leurs alliés appellent à une “adoption prudente” [2], et pendant ce temps des dev seniors écrivent que l’agentic coding est un piège [3]. Question simple : si on ne sait même pas si nos agents font le bon boulot, qu’est-ce qu’on est en train d’industrialiser exactement ?

L’agent n’est pas une nouvelle abstraction

Le discours dominant est confortable : les LLM, c’est juste la prochaine couche au-dessus de Python, comme C l’était au-dessus de l’assembleur. Sauf que c’est faux, et la démonstration tient en une ligne. Une abstraction, c’est f(x) -> y. Un LLM, c’est f(x) -> P(y | z1 | z2 | ... zN) [4]. Pas un résultat, une distribution de probabilité — avec en bonus la garantie qu’il y aura toujours un artefact en sortie, même quand ce n’est pas ce que tu voulais.

Lars Faye va plus loin : “un niveau d’ambiguïté plus haut n’est pas un niveau d’abstraction plus haut” [3]. Et le problème n’est pas seulement théorique. Quand on s’éloigne du code en empilant des agents pour le générer à notre place, on délègue exactement ce qui faisait le boulot d’un dev senior : la rigueur, la spec, les checks, le sens de “ce truc va casser en prod”.

Pendant ce temps, les boîtes refondent leurs opérations

Pas de doute, le mouvement d’adoption est massif. Les agents IA forcent les entreprises à revoir leurs opérations [1]. Le Pentagone signe avec sept boîtes tech pour pousser de l’IA sur ses systèmes classifiés [5]. Les États-Unis, avec leurs alliés (Australie, Royaume-Uni, etc.), publient des guidelines appelant à une “adoption prudente” — c’est-à-dire que personne n’est vraiment prêt mais tout le monde y va quand même [2].

Le problème, c’est qu’on entre dans la phase industrielle d’une techno dont on n’a pas encore inventé les outils de mesure. C’est exactement la situation que Nick Nisi décrit chez WorkOS : il a passé des semaines à construire deux outils dev basés sur le Claude Agent SDK avant de réaliser qu’il n’avait aucune idée s’ils marchaient vraiment [6].

“Magic is untestable by default.”

Les evals, c’est le nouveau code

Sa réponse a été pragmatique : construire des fixtures, des projets de départ, et mesurer le diff après le passage de l’agent [6]. Pas de expect(output).toBe(expected) — ça ne marche pas avec un agent, qui ne produit jamais deux fois la même sortie. À la place, des grilles de scoring sur des axes qui comptent : est-ce que l’install est fonctionnelle ? Est-ce que le diff est lisible pour un reviewer ? Est-ce que ça respecte les conventions du projet ?

Ce qu’il découvre, c’est que les evals ne sont pas juste un outil de QA. C’est l’outil qui te dit ce que tu construis vraiment. Sans eux, tu pilotes à vue. Et plus le tooling agentique s’industrialise, plus le déficit d’évaluation devient critique.

Skills : l’autre brique qui redevient sérieuse

Côté tooling, deux articles dessinent ce qui est en train de devenir la nouvelle hygiène. Addy Osmani décrit Agent Skills comme “le travail de senior qui n’apparaît pas dans le diff” : specs, tests, reviews, discipline du scope [7]. Pas de la doc de référence, mais des workflows avec des critères de sortie. Process over prose. Workflows over reference. Steps with exit criteria over essays without them.

Perplexity confirme depuis le terrain : écrire un Skill, ce n’est pas écrire du code [8]. Ils vont jusqu’à inverser le Zen of Python : “Simple is better than complex” devient “A Skill is a folder, not a file. Complexity is the feature.” “If the implementation is easy to explain, it may be a good idea” devient “If it’s easy to explain, the model already knows it. Delete it.”

Autrement dit : on est en train de réinventer une discipline d’ingénierie, mais avec des règles inversées par rapport à celles qu’on a apprises pendant 30 ans.

Le piège n’est pas l’IA, c’est notre paresse face à elle

Le mouvement est puissant et il ne va pas s’arrêter. Mais entre l’euphorie d’adoption côté CIO et les voix qui rappellent qu’on n’a pas (encore) une vraie abstraction, il y a un espace pour la rigueur. Trois questions à se poser cette semaine :

  1. Sur quels agents ai-je vraiment des evals ? (Pas un test unitaire — un eval.)
  2. Mes Skills sont-ils des essays ou des workflows avec exit criteria ?
  3. Combien de mes décisions sont prises sur du P(y) que je traite comme du y ?

Tu te précipites ou tu mesures ?


Sources

  1. AI agents are forcing enterprises to overhaul their operations
  2. US and allies urge ‘careful adoption’ of AI agents
  3. Agentic Coding is a Trap
  4. LLMs Are Not a Higher Level of Abstraction
  5. US and allies urge ‘careful adoption’ of AI agents
  6. Writing my first evals
  7. Agent Skills
  8. Designing, Refining, and Maintaining Agent Skills at Perplexity

Pour aller plus loin

Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.

Pour aller plus loin

Buoyed by OpenAI deal, AWS prepares for agentic future

— pour comprendre comment les hyperscalers se positionnent sur l'infra agentique.

You Are Not Immune To Mode Collapse

— un rappel salutaire sur les biais de modèles qu'on prend pour des "réponses".

The 'Hidden' Costs of Great Abstractions

— court, brutal et personnel sur ce qu'on perd quand on monte d'un cran d'abstraction sans comprendre ce qu'il y a en dessous.

US Military Reaches Deals With 7 Tech Companies to Use Their AI on Classified Systems

— quand l'IA agentique entre dans les systèmes les plus critiques, le débat sur les evals devient un débat de sécurité nationale.

Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.