The Webpage Has Instructions. The Agent Has Your Credentials.

Le mode de défaillance qui compte

Un exemple concret : une issue GitHub empoisonnée a dit à un agent de code de lire un repo privé que l'utilisateur n'avait jamais pointé, puis de poster le contenu dans une PR publique. L'agent l'a fait. Le système lui donnait un accès large aux repositories, et l'utilisateur avait déjà cliqué "Toujours autoriser."

Le même mois, Operator a été lancé avec un taux de succès des injections de prompt de 23% après mitigation sur 31 scénarios de test browser-agent. Agent Security Bench a publié un taux de succès d'attaque de 84,30% sur des attaques mixtes la même semaine. Tous décrivaient des agents que des utilisateurs réels utilisaient déjà.

Le mode de défaillance qui compte n'est pas un agent qui génère une mauvaise réponse. C'est du contenu non fiable qui atteint un appel d'outil, une écriture dans un repo, une mise à jour mémoire, ou un passage entre agents. Toutes ces actions s'exécutent avec les permissions de l'utilisateur. Filtrer les mauvaises entrées à l'entrée aide, mais le dommage vient de ce que l'agent fait après que du contenu hostile entre dans son contexte.

Browser agents : de la recherche à la production

Operator a rendu l'injection de prompt browser-agent un problème de déploiement réel. Le system card d'OpenAI l'a dit explicitement, en classant les injections de prompt parmi les nouveaux risques créés par le fait de laisser un modèle naviguer des sites web, interagir avec des interfaces, et agir au nom d'un utilisateur.

Les protections publiées : prompts de confirmation, watch mode pour les sites sensibles, refus automatiques, et un détecteur d'injection avec 99% de recall et 90% de précision sur 77 tentatives red-team. Les attaquants ont quand même réussi 23% du temps sur 31 scénarios de test. OpenAI a lancé le produit quand même — ce qui signifie que l'entreprise a décidé que le risque était gérable, et que chaque équipe construisant des agents browser doit maintenant prendre la même décision.

La surface d'attaque s'élargit avec l'autonomie

Chaque capacité ajoutée à un agent ajoute une surface d'injection :

Navigation web : les pages peuvent contenir des instructions
Lecture d'emails : les emails peuvent contenir des instructions
Exécution de code : les outputs peuvent contenir des instructions
Mémoire persistante : les injections peuvent affecter les sessions futures
Passage entre agents : un agent compromis peut compromettre les suivants

Tous ces vecteurs existaient au début 2025 quand l'industrie livrait des agents qui naviguent le web, lisent les emails, exécutent du code, stockent des mémoires, et délèguent à d'autres agents.

The Webpage Has Instructions. The Agent Has Your Credentials.

Résumé

💡 Pourquoi ça compte

Analyse approfondie

Le mode de défaillance qui compte

Browser agents : de la recherche à la production

La surface d'attaque s'élargit avec l'autonomie