Most Coding Agents Break 75%+ of Their Own Fixes Over Time

La plupart des benchmarks de coding agents demandent à un modèle de corriger un bug, dans un snapshot d'un dépôt, une seule fois. SWE-CI pose une question plus difficile : peut-on maintenir un vrai codebase sur des mois d'évolution sans casser ce qu'on vient de corriger ? Pour la plupart des modèles, la réponse est non.

Le benchmark comprend 100 tâches issues de 68 dépôts Python réels, couvrant en moyenne 233 jours et 71 commits consécutifs. 18 modèles de 8 fournisseurs ont été testés, consommant plus de 10 milliards de tokens. La plupart des modèles ont un taux de zéro-régression inférieur à 0,25 — ils introduisent des régressions dans plus de 75 % des tâches.

Le problème de SWE-bench, le benchmark canonique, est qu'il évalue des corrections isolées. Les vrais codebases évoluent : une fonctionnalité ajoutée en janvier affecte les tests en mars. SWE-CI introduit un paradigme « basé sur l'évolution » : chaque tâche se déroule sur jusqu'à 20 itérations CI, où l'agent doit faire des changements qui passent les tests d'aujourd'hui sans défaire ce qui fonctionnait déjà.

Le protocole d'évaluation utilise un duo d'agents : l'Architecte analyse les tests en échec et rédige un document de spécifications, le Programmeur implémente les modifications. Ce découpage mime un workflow d'ingénierie réaliste. Le scoring se fait via EvoScore, une métrique pondérée par le futur qui récompense la stabilité à long terme.

Claude Opus est l'exception notable : c'est la seule famille de modèles à dépasser un taux de zéro-régression de 50 %. Au sein de chaque famille de fournisseurs, les modèles plus récents surpassent systématiquement les plus anciens — mais aucun n'a « résolu » la maintenabilité.

Most Coding Agents Break 75%+ of Their Own Fixes Over Time

Résumé

💡 Pourquoi ça compte

Analyse approfondie