Designing AI agents to resist prompt injection

L'évolution de la prompt injection vers le social engineering

Les premières attaques par prompt injection étaient rudimentaires : éditer un article Wikipedia pour y inclure des instructions directes aux agents IA qui le visitaient. Les modèles, sans expérience d'un environnement adversarial à l'entraînement, suivaient souvent ces instructions sans question. Mais à mesure que les modèles sont devenus plus intelligents, les attaques ont évolué pour intégrer des éléments de social engineering — des techniques de manipulation qui ne reposent plus sur une simple chaîne malveillante mais sur du contenu trompeur en contexte.

L'article souligne que les systèmes de type « AI firewalling », où un intermédiaire tente de classifier les entrées en malveillantes ou légitimes, échouent face à ces attaques sophistiquées. Le problème de détection devient équivalent à celui de détecter un mensonge ou de la désinformation, souvent sans le contexte nécessaire.

Le modèle de l'agent de service client

OpenAI propose une analogie éclairante : l'agent IA existe dans un système à trois acteurs similaire à un employé de service client. L'agent veut agir au nom de son employeur, mais est continuellement exposé à des inputs externes qui tentent de le tromper. Un client peut prétendre qu'un remboursement n'a pas été effectué, ou menacer de représailles. Dans le monde réel, l'agent humain dispose de règles mais aussi de systèmes déterministes qui limitent le nombre de remboursements possibles, signalent les emails de phishing, et contraignent l'impact d'une compromission individuelle.

La défense déployée dans ChatGPT : Safe Url

OpenAI combine ce modèle de social engineering avec des approches classiques d'ingénierie de sécurité, notamment l'analyse source-sink. Un attaquant a besoin d'une source (un moyen d'influencer le système) et d'un sink (une capacité dangereuse dans le mauvais contexte). Pour les agents, cela signifie combiner du contenu externe non fiable avec une action comme la transmission d'informations à un tiers.

La plupart des attaques contre ChatGPT tentent de convaincre l'assistant de transmettre des informations sensibles de la conversation à un tiers malveillant. Dans la majorité des cas, le safety training du modèle provoque un refus. Pour les cas restants, OpenAI a développé la mitigation « Safe Url » : quand de l'information apprise dans la conversation serait transmise à un tiers, le système affiche l'information à l'utilisateur et demande confirmation, ou bloque l'action et demande à l'agent de trouver une autre approche.

Designing AI agents to resist prompt injection

Résumé

💡 Pourquoi ça compte

Analyse approfondie

L'évolution de la prompt injection vers le social engineering

Le modèle de l'agent de service client

La défense déployée dans ChatGPT : Safe Url