L'IA a hacké Firefox. Elle ne peut toujours pas maintenir ton code.

Claude Opus 4.6 a trouvé 22 zero-days dans Firefox en deux semaines — plus que n’importe quel mois de 2025. La même semaine, un benchmark montre que les coding agents introduisent des régressions dans 75% des cas. Même technologie, résultats opposés. Ce paradoxe dit quelque chose d’important sur là où en est vraiment l’IA.

La semaine où l’IA a hacké Firefox

Anthropic a publié les résultats d’un partenariat avec Mozilla : Claude Opus 4.6 a découvert 22 vulnérabilités dans Firefox en deux semaines [1]. Dont 14 classées haute sévérité — soit presque un cinquième de toutes les vulnérabilités haute sévérité corrigées dans Firefox sur toute l’année 2025.

Ce qui rend ce résultat frappant, c’est le contexte : Firefox est un des projets open-source les mieux audités au monde. Ce n’est pas faute de chercheurs humains compétents. C’est que l’IA peut analyser des millions de lignes de code sans fatigue, tester des hypothèses en parallèle, et maintenir une attention que l’humain ne peut pas soutenir sur la durée.

Le même jour, OpenAI a annoncé Codex Security en research preview [2]. Anciennement “Aardvark”, l’outil réduit le bruit de 84% et les faux positifs de 50% depuis son lancement en beta. La sécurité applicative devient un nouveau terrain de compétition entre les labs.

Mais 75% des corrections finissent par casser autre chose

La même semaine, le benchmark SWE-CI apporte une nuance importante [3]. Contrairement à SWE-bench qui évalue un fix en isolation sur un snapshot de repo, SWE-CI teste la capacité à maintenir du code réel sur 233 jours en moyenne et 71 commits consécutifs.

Résultat : la plupart des modèles ont un zero-regression rate inférieur à 0,25 — ils introduisent des régressions dans plus de 75% des tâches. Seule la série Claude Opus dépasse 50%. Ce n’est pas flatteur non plus.

La différence entre “trouver une vulnérabilité en isolation” et “maintenir un codebase sur 8 mois” est qualitative, pas juste quantitative.

”Ce code compile. Il passe les tests. Il est 20 000 fois trop lent.”

Un article publié cette semaine illustre parfaitement ce problème [4]. Un développeur a analysé une réécriture Rust de SQLite générée par LLM : le code compile, passe tous les tests, implémente correctement le format de fichier. Et pourtant, un lookup sur 100 lignes prend 1 815 ms au lieu de 0,09 ms — soit 20 000 fois plus lent.

“LLMs optimize for plausibility over correctness.”

Les LLMs sont entraînés à produire du code qui ressemble à du code correct. Ce n’est pas la même chose que du code correct. Et c’est systémique : les données de METR et GitClear citées dans l’article confirment que ce n’est pas un cas isolé.

La “marche des neuf” de Karpathy

Andrej Karpathy a posé un cadre utile pour penser la fiabilité en production [5]. Atteindre 90% de fiabilité, c’est “juste le premier neuf”. Chaque neuf supplémentaire — 99%, 99,9%, 99,99% — demande autant d’effort que le précédent.

Les workflows agentiques amplifient le problème. Un workflow en 10 étapes réussissant à 90% par étape donne 35% de succès bout-en-bout. À 99% par étape, on passe à 90%. La frontière entre “prototype impressionnant” et “outil de production” se joue entièrement là.

C’est pourquoi les plateformes d’évaluation deviennent une infrastructure critique. Un guide comparatif publié cette semaine couvre six solutions — Microsoft AI Foundry, LangSmith, Arize AI, Galileo, Maxim AI — et souligne que la majorité des entreprises en sont encore à l’évaluation manuelle [8]. Ce n’est plus soutenable à l’échelle.

Et nos jobs là-dedans ?

Anthropic a publié ses premières mesures sur l’impact de l’IA sur le marché du travail [6]. Pas d’augmentation systématique du chômage pour les travailleurs les plus exposés depuis fin 2022 — mais les embauches de jeunes travailleurs ralentissent dans les métiers exposés. L’effet est discret pour l’instant. La trajectoire, elle, est lisible.

Sean Goedecke, staff engineer, a mis des mots dessus cette semaine [7] :

“Why hire a group of engineers to ‘be the hands’ of a handful of very senior folks when you can rent instances of Claude Opus 4.6 for a fraction of the price?”

Il estime que les junior et mid-level seront touchés avant lui — son travail ressemble déjà à de la supervision d’agents depuis longtemps. Ce n’est pas du cynisme. C’est une observation honnête sur la direction.

La vraie question pour les Engineering Directors n’est pas philosophique. C’est opérationnelle : l’IA excelle sur des tâches d’analyse ponctuelle à haut signal — sécurité, revue de code, exploration. Elle reste fragile sur la maintenance continue et les systèmes vivants. Savoir faire la différence, c’est peut-être la compétence clé de la décennie.

Sources

Pour aller plus loin

Aaron Levie on X: “Building for trillions of agents” — une vision ambitieuse de ce qui arrive quand les agents deviennent les principaux utilisateurs de tous les logiciels
OpenClaw Architecture - Part 1: Control Plane, Sessions, and the Event Loop — comment construire un agent “toujours allumé” qui semble proactif sans être magique

Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.

Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.