🦉
Le Veilleur
Le modèle ne suffit plus. C'est le harnais qui fait le travail.

Le modèle ne suffit plus. C'est le harnais qui fait le travail.

Aurélien Allienne

Aurélien Allienne

Publié le • 7 min de lecture

Le modèle ne suffit plus. C’est le harnais qui fait le travail.

Un agent IA autonome, livré à lui-même pendant plusieurs heures, produit une application full-stack complète. Pas un prototype — une vraie app. La condition ? Une architecture à trois agents — planificateur, générateur, évaluateur — qui structure chaque étape et vérifie chaque sortie. Sans ce harnais, le même modèle tourne en rond.

L’architecture qui change tout

Anthropic vient de publier les résultats de ses travaux sur les agents de code longue durée [1]. L’insight central : un agent seul, même puissant, accumule les erreurs au fil du temps. La solution n’est pas un meilleur modèle — c’est un meilleur harnais.

Le design repose sur trois agents spécialisés. Un planificateur décompose le produit en tâches ordonnées. Un générateur implémente feature par feature. Et un évaluateur, inspiré des GANs, note chaque sortie selon des critères concrets — pas “est-ce que c’est bien ?” mais des grilles de qualité graduées, de “les pages sont vides” à “production-ready”. Quand l’évaluateur rejette une itération, le générateur recommence avec le feedback. Ce cycle tourne en autonomie pendant des heures.

« The key insight from our research was that taste and evaluation quality were the binding constraint on the system, not generation capability. »

Le résultat le plus contre-intuitif : c’est la qualité de l’évaluateur qui plafonne les performances, pas celle du générateur. Améliorer le modèle qui code ne sert à rien si le modèle qui juge n’a pas de goût [1].

Le bon harnais pour le bon problème

Cette idée de “harnais” ne concerne pas que le code. Akash Bajwa pousse le concept plus loin avec le workload-harness fit : l’idée que chaque type de tâche demande une architecture d’agent différente [2].

Cursor, Intercom, Cognition, Decagon — tous ces “agent labs” ont convergé vers la même conclusion : pour dépasser les limites des modèles généralistes, il faut entraîner des modèles verticaux, spécialisés sur leur domaine. Cursor post-entraîne ses propres modèles dans son propre environnement. Intercom a lancé Fin Apex, optimisé pour le support client. Le pattern est le même partout : capturer les traces d’usage, entraîner un modèle étroit, itérer [2].

Deux camps émergent. Ceux qui investissent dans l’entraînement de modèles. Et ceux qui misent tout sur l’ingénierie d’agents — le harnais, les prompts, l’orchestration. La réalité, c’est que les deux sont nécessaires. Le harnais sans le modèle, c’est du plombier sans eau. Le modèle sans le harnais, c’est un moteur de F1 dans un châssis de Twingo.

Votre ticket est un prompt

Et le harnais commence bien avant le code. Dheer Gupta a fait une observation qui devrait faire réfléchir toute équipe produit : vos tickets Jira sont devenus des prompts [3].

Il a testé des équipes d’agents autonomes sur des tâches classiques. Résultat : les agents reproduisent fidèlement les biais des tickets dont ils s’inspirent. Un ticket trop étroit ? L’agent pousse le reste du travail vers d’autres tickets. Trois itérations plus tard, le problème initial est enterré sous des micro-correctifs qui ne résolvent rien collectivement.

« The fragmentation disease was always there. We couldn’t see it clearly when humans caught context in hallway conversations and filled gaps from tribal knowledge. Agents don’t have hallways. »

Sa recommandation : assignez aux agents le plus gros périmètre justifiable. Décrivez l’outcome en deux lignes. Laissez l’agent découper lui-même. Si c’est trop grand, découpez en initiatives plus petites — pas en tickets techniques [3].

Quand l’agent a les clés SSH

Farid Saïd, Head of IT dans une société financière en Suisse, est allé un cran plus loin : il a donné un accès SSH à Claude sur toute son infrastructure [4]. Switches Cisco, firewalls Palo Alto, stockage — le tout en lecture seule.

Le résultat est impressionnant. Un audit complet du parc switches en une journée, là où son équipe aurait mis des semaines. Des dizaines de findings de sécurité — protocoles non chiffrés, ACLs manquantes, configurations driftées. L’IA a ensuite généré un monitoring Prometheus/Grafana complet et documenté l’ensemble de l’infrastructure automatiquement.

Mais les garde-fous sont essentiels : utilisateur dédié en lecture seule, pas de configure terminal, pas de modification possible. C’est exactement le design de harnais appliqué à l’infrastructure — donner à l’agent le pouvoir d’observer et d’analyser, sans le pouvoir de casser [4].

La sécurité du harnais, talon d’Achille

Car quand le harnais a des failles, les conséquences sont réelles. OpenAI vient de patcher une vulnérabilité dans ChatGPT qui permettait l’exfiltration de données par DNS [5]. Le mécanisme : un attaquant injectait une instruction dans le contexte de conversation pour que le modèle génère des requêtes DNS encodant les données de l’utilisateur — tokens de session, contenu de conversation. Le tout invisible, puisque les requêtes DNS passent sous le radar de la plupart des outils de monitoring.

Ce n’est pas un bug du modèle. C’est un bug du harnais — la couche qui connecte le modèle au monde extérieur. Le modèle a fait exactement ce qu’on lui a demandé. C’est l’infrastructure autour qui n’a pas filtré les sorties [5].

La mémoire partagée entre agents

Mozilla AI propose une approche complémentaire avec CQ (Collective Queries), un standard ouvert pour que les agents partagent leurs apprentissages [6]. L’idée : au lieu que chaque agent redécouvre les mêmes échecs indépendamment, ils persistent et partagent leurs connaissances dans une base commune.

C’est le chaînon manquant du harnais. Un agent isolé apprend de ses erreurs pendant une session, puis oublie tout. CQ transforme les agents en une intelligence collective qui accumule de l’expérience au fil du temps — les dead ends à éviter, les patterns qui fonctionnent, les pièges spécifiques à chaque codebase [6].

Évaluer sa maturité

Reste une question pour les leaders : où en est votre organisation ? L’équipe de Quotient a publié un modèle de maturité IA structuré en cinq niveaux et six axes — enablement, gouvernance, validation, intégration workflow, automatisation et accès aux données internes [7].

Le constat est net : la différence entre les équipes qui tirent de la valeur de l’IA et celles qui patinent ne vient pas des outils. Elle vient des capacités organisationnelles autour des outils — exactement le même pattern que le harnais technique. La gouvernance, la validation, l’accès au contexte interne — c’est le harnais managérial [7].

Le mot de la fin

Le narratif dominant reste centré sur les modèles : plus gros, plus rapides, plus capables. Mais les équipes qui livrent vraiment avec l’IA ont compris autre chose : c’est le système autour du modèle qui fait la différence. Le harnais technique. Le harnais organisationnel. Et le harnais humain — la façon dont on formule les problèmes, dont on structure le travail, dont on sécurise les accès.

La prochaine fois que quelqu’un vous demande “quel modèle vous utilisez ?”, la bonne réponse est peut-être “quel harnais vous avez construit ?”

Sources

  1. Harness design for long-running application development
  2. Agent Labs: Workload-Harness Fit
  3. Your ticket is a prompt
  4. J’ai donné un accès SSH à une IA sur mon infrastructure. Voici ce qui s’est passé.
  5. OpenAI patches ChatGPT flaw that smuggled data over DNS
  6. GitHub - mozilla-ai/cq: An open standard for shared agent learning
  7. RDEL #136: How can engineering leaders assess their AI maturity?

Pour aller plus loin

Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.

Pour aller plus loin

A Mirror Test For LLMs

— Un test de conscience de soi adapté aux LLMs, inspiré du test du miroir animal — fascinant et humbling

Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI

— Le nouveau modèle omnimodal d'Alibaba qui traite texte, image, audio et vidéo nativement

Apple Pivots Its AI Strategy to App Store, Search-Like Platform Approach

— Apple abandonne le modèle intégré pour une approche plateforme à la App Store

Production RAG: Learning from Scratch Done Right

— Guide architecte senior pour un RAG de production, au-delà des tutos qui marchent uniquement sur des datasets jouets

Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.