Are AI agents actually slowing us down?

Le site web d'Anthropic — l'entreprise derrière Claude — a connu une dégradation visible de qualité qui est restée en ligne pendant une période prolongée, sans que personne en interne ne semble le remarquer ou agir. Ce fait, en apparence anodin, est symptomatique d'un problème plus large : quand les agents IA produisent du contenu ou du code à grande vitesse, qui vérifie la qualité de ce qui sort ?

Les incidents Amazon

Amazon a connu une série de SEV (incidents de production de sévérité élevée) directement attribuables à des changements de code générés par des agents IA. La réponse de l'entreprise a été d'imposer une nouvelle règle : tout changement produit par un agent doit désormais être approuvé par un ingénieur senior avant d'être déployé.

Cette mesure représente un recul significatif par rapport à la promesse d'accélération des agents. Si chaque output nécessite une revue senior, le gain de vitesse est en grande partie annulé par le goulot d'étranglement de la validation. C'est un aveu implicite que les agents, dans leur état actuel, ne sont pas suffisamment fiables pour opérer de manière autonome en production.

Meta et Uber : mesurer l'usage, pas la qualité

Meta et Uber ont commencé à intégrer des métriques de consommation de tokens IA dans leurs processus d'évaluation de performance (perf reviews) des développeurs. L'idée sous-jacente : les développeurs qui utilisent activement les agents IA sont considérés comme plus productifs.

Le problème fondamental est l'absence de métriques de qualité associées. On mesure combien de tokens un développeur consomme, mais pas si le code produit avec ces tokens est correct, maintenable ou sécurisé. C'est l'équivalent de mesurer la productivité d'un écrivain au nombre de mots produits sans lire ce qu'il écrit.

Cette approche crée des incitations perverses : les développeurs sont encouragés à utiliser les agents au maximum, indépendamment de la pertinence ou de la qualité du résultat. Ceux qui prennent le temps de coder manuellement quand c'est plus approprié risquent d'être pénalisés dans leurs évaluations.

Un schéma récurrent

Le fil conducteur de ces trois exemples est le même : les organisations adoptent les agents IA avec empressement, mesurent la vitesse et le volume, mais négligent la qualité. C'est un schéma classique en ingénierie — optimiser une métrique proxy (la vitesse) au détriment de la métrique réelle (la valeur livrée et la fiabilité).

Gergely Orosz conclut que la qualité du code produit avec des agents IA est en baisse dans l'industrie. Non pas parce que les agents sont fondamentalement mauvais, mais parce que les processus, les incitations et les garde-fous autour d'eux n'ont pas suivi le rythme de leur adoption.

Are AI agents actually slowing us down?

Résumé

💡 Pourquoi ça compte

Analyse approfondie

Les incidents Amazon

Meta et Uber : mesurer l'usage, pas la qualité

Un schéma récurrent