L'IA ne parle plus, elle exécute. Et nous sommes en train de perdre le contrôle de la vérification.
Aurélien Allienne
Publié le • 5 min de lecture
En tant qu’Engineering Director, je vois le sol se dérober sous nos pieds. Nous sortons de la phase d’amusement avec les chatbots pour entrer dans celle de l’exécution massive. Dans mes équipes, on ne « prompte » plus : on lance des flottes d’agents autonomes. Le vertige n’est pas seulement lié à la vitesse, mais au fait que nous déléguons désormais l’action avant même d’avoir stabilisé la vérification.
Ne me parlez plus de modèles, parlez-moi de « Harnesses »
Selon Ethan Mollick [1], la guerre des cerveaux (GPT-5.2, Claude 4.6) est devenue un bruit de fond. Pour un architecte, le sujet n’est plus le modèle seul, mais le Harness (le harnais). C’est ce système qui permet à l’IA d’accéder à un terminal, un navigateur ou un système de fichiers pour agir concrètement.
Le métier de développeur bascule : nous passons de l’écriture au management d’agents. Quand Ethan Mollick utilise Claude Code pour produire 80 volumes imprimés contenant l’intégralité des paramètres de GPT-1, construire un site e-commerce connecté à Stripe, et lancer le tout en quelques heures sans toucher une ligne de code [1], on mesure l’ampleur du saut. Mais cette puissance nécessite une infrastructure de confiance. Par exemple, Claude Cowork ne tourne pas « dans le cloud » de manière abstraite, mais dans une VM isolée avec un réseau en default-deny.
L’enjeu n’est plus la performance du cerveau, mais la sécurité des mains. Cette capacité d’action démultipliée pose un problème immédiat : celui de la vérification à l’échelle.
Le paradoxe de la vitesse : Produire vite ou vérifier juste
Nous réécrivons le logiciel mondial à une vitesse stupéfiante. Chez Google et Microsoft, 25 à 30 % du nouveau code est déjà généré par IA [4]. Le problème ? La revue humaine est structurellement incapable de suivre. Nous tombons dans une « acceptation aveugle » (le syndrome Accept All) où l’on valide des milliers de lignes sans en saisir la logique profonde.
En tant qu’ingénieurs, nous devons faire une distinction vitale : le “test” apporte la confiance, mais seule la “preuve” apporte une garantie.
- Le test (fuzzing, unit tests) dit que ça a fonctionné cette fois-ci.
- La vérification formelle (via des langages comme Lean) fournit une certitude mathématique.
L’exemple récent de la bibliothèque zlib est flagrant : une IA a pu prouver mathématiquement que la décompression retournera toujours les données originales, quel que soit le niveau de compression. C’est ce niveau d’exigence qui doit devenir la norme pour éviter les « cauchemars de maintenance » prédits par Leonardo de Moura. Pour y parvenir sans tout bloquer, l’émergence de l’Agentic Code Reasoning [5] est cruciale : elle permet d’analyser la sémantique du code en profondeur sans même avoir besoin de l’exécuter.
Entre ambition et mur de verre opérationnel
Le contraste est brutal. Selon le Logicalis 2026 CIO Report, 94 % des décideurs augmentent leurs dépenses en IA [2], mais les deux tiers admettent être incapables de passer à l’échelle. On navigue à vue (« learning as we go »), et le risque de bulle est réel.
Cette complexité est une aubaine pour les attaquants. Les failles ne sont plus seulement logiques, elles sont identitaires [6]. Nous observons une explosion d’attaques sur les tokens OAuth où des hackers injectent des paramètres invalides pour déclencher des « silent error redirects » [3]. Ils détournent ainsi les flux d’authentification vers leurs propres infrastructures sans que l’utilisateur ne s’en aperçoive.
Si nous ne repensons pas la gouvernance, nous fonçons vers le « Ghost GDP » : une productivité théorique qui gonfle les rapports mais ne circule pas dans l’économie réelle, car elle est piégée par une dette technique ingérable et des risques de sécurité systémiques. Si vos budgets et vos valorisations SaaS reposent sur du code que personne ne peut vérifier, vous construisez un château de cartes.
L’intelligence est devenue une commodité abondante. La rareté s’est déplacée : elle réside désormais dans la vérification et la gouvernance. Nous entrons dans une ère de « spirale de déplacement » où l’efficacité brute risque de détruire la valeur si elle n’est pas encadrée par des preuves formelles.
Une question pour vous : si 30 % de votre codebase a été écrite par une entité qui ne « pense » pas comme un humain, comment pouvez-vous dormir sereinement sans une preuve mathématique de son intégrité ?
Sources
- A Guide to Which AI to Use in the Agentic Era
- Logicalis 2026 CIO Report
- Microsoft: Hackers abuse OAuth error flows to spread malware
- When AI Writes the World’s Software, Who Verifies It?
- Agentic Code Reasoning
- Palo Alto Networks: Global Incident Response Report 2026
Pour aller plus loin
- Agentic Code Reasoning (arXiv:2603.01896) — Pour comprendre comment analyser la sémantique du code sans exécution.
- The 2028 Global Intelligence Crisis — Une analyse sur l’impact de l’IA sur le marché hypothécaire de 13 000 milliards de dollars.
- Quantum Decryption of RSA Is Much Closer Than Expected — Pourquoi l’accélération algorithmique (JVG) rend la migration vers la cryptographie post-quantique urgente.
Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.
Pour aller plus loin
— Pour comprendre comment analyser la sémantique du code sans exécution.
— Une analyse sur l'impact de l'IA sur le marché hypothécaire de 13 000 milliards de dollars.
— Pourquoi l'accélération algorithmique (JVG) rend la migration vers la cryptographie post-quantique urgente.
Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.