Une IA vient de trouver des failles dans tous les OS majeurs. Et 72 % des entreprises ne savent toujours pas rentabiliser la leur.

Un modèle d’IA vient de découvrir des vulnérabilités zero-day dans chaque système d’exploitation majeur et chaque navigateur web. Anthropic refuse de le rendre public. Pendant ce temps, une étude Gartner révèle que seulement 28 % des projets d’infrastructure IA atteignent leurs objectifs. L’écart entre ce que l’IA peut faire et ce que les organisations arrivent à en faire n’a jamais été aussi vertigineux.

Un modèle trop dangereux pour être public

Anthropic a annoncé hier Claude Mythos Preview, un modèle frontier qui surpasse “tous les humains sauf les plus qualifiés” en détection et exploitation de vulnérabilités logicielles [1]. Le modèle a déjà identifié des milliers de failles de haute sévérité, y compris dans chaque OS et navigateur majeur [2].

La décision d’Anthropic est inédite : pas de release publique. À la place, le modèle est mis à disposition d’un consortium de plus de 40 entreprises — Apple, Amazon, Microsoft, Google, Cisco, CrowdStrike, Palo Alto Networks — dans le cadre du Project Glasswing [2]. Objectif : scanner et sécuriser les infrastructures logicielles critiques avant que des capacités similaires ne prolifèrent chez des acteurs moins scrupuleux.

Le budget ? Jusqu’à 100 millions de dollars en crédits d’utilisation, plus 4 millions en dons directs aux organisations de sécurité open source [2].

“The goal is both to raise awareness and to give good actors a head start on the process of securing open-source and private infrastructure and code.” — Jared Kaplan, CSO d’Anthropic [1]

Ce que Mythos change concrètement

Les détails techniques publiés par l’équipe red team d’Anthropic sont édifiants [3]. Mythos Preview ne se contente pas de trouver des bugs connus : il découvre des zero-days, puis génère des exploits fonctionnels. Il est capable de reverse-engineering sur du code fermé et de transformer des vulnérabilités N-day en exploits exploitables.

Plus de 99 % des failles découvertes n’ont pas encore été patchées — d’où le silence sur les détails. Mais le message est clair : la prochaine génération de modèles va redéfinir la surface d’attaque de tout logiciel connecté.

72 % des projets IA ne délivrent pas

Pendant qu’Anthropic repousse les limites du possible, le terrain raconte une autre histoire. Selon une étude Gartner fraîchement publiée, seuls 28 % des projets d’infrastructure IA génèrent le retour sur investissement attendu [4]. Les 72 % restants ? Partiellement délivrés, en retard, ou abandonnés.

Le problème n’est pas la technologie. C’est la discipline d’exécution. Les entreprises lancent des pilotes, mesurent mal, et n’arrivent pas à passer en production.

De pilotes à résultats : la méthode MassMutual

C’est exactement le piège que MassMutual et Mass General Brigham ont évité. Lors d’un événement VentureBeat, leurs leaders tech ont décrit comment ils sont passés du “pilot sprawl” à des résultats mesurables [5].

Les chiffres parlent : +30 % de productivité développeur, résolution du help desk IT passée de 11 minutes à 1 minute, appels service client réduits de 15 à 2 minutes.

La recette ? Commencer par le “pourquoi”, définir des métriques de succès avant de coder, et ne pas avancer tant que la mesure n’est pas claire.

“We won’t go any further with an idea until we get crystal clear on how we’re going to measure, and how we’re going to define success.” — Sears Merritt, MassMutual [5]

Le vrai avantage concurrentiel : le goût

Quand l’IA produit du code, des mémos et des decks en quelques minutes, qu’est-ce qui différencie encore les équipes qui livrent de celles qui accumulent les PoC ? Le jugement. Le goût.

C’est la thèse de Raj Nandan dans un article qui fait réfléchir : l’IA aplatit le milieu — tout le monde peut produire quelque chose de “correct”. L’avantage se déplace vers ceux qui savent distinguer le générique du pertinent, le correct du juste [6].

Mitchell Hashimoto (créateur de Terraform et Ghostty) enfonce le clou dans un billet sur la “building block economy” : l’IA est excellente pour assembler des composants existants, mais c’est l’humain qui choisit lesquels assembler et pourquoi [7]. libghostty a atteint plusieurs millions d’utilisateurs quotidiens en deux mois — non pas parce que l’IA l’a construit, mais parce qu’un humain avec du goût a conçu le bon building block.

Ce qu’il faut retenir

L’IA peut désormais hacker n’importe quel système d’exploitation. Elle peut aussi générer du code, des présentations et des analyses financières. Mais 72 % des entreprises n’arrivent toujours pas à en tirer de la valeur.

La vraie menace n’est pas que l’IA devienne trop puissante. C’est que la plupart des organisations ne soient pas assez disciplinées pour en faire quelque chose. Le goût, la mesure, la rigueur d’exécution — c’est ça le vrai fossé.

Et vous, dans vos projets IA : vous en êtes où entre le pilote et la production ?

Sources

Pour aller plus loin

S3 Files and the changing face of S3 — Werner Vogels explique comment S3 évolue avec S3 Files pour résoudre le cauchemar du déplacement de données à grande échelle
Principles of Mechanical Sympathy — Martin Fowler revient aux fondamentaux : comprendre le hardware pour écrire du logiciel performant, un rappel utile à l’ère de l’abstraction IA
GLM-5.1: Towards Long-Horizon Tasks — Zhipu AI lance GLM-5.1, un modèle conçu pour les tâches à horizon long, ajoutant un concurrent sérieux dans la course aux agents
We’re actually running out of benchmarks to upper bound AI capabilities — L’IA progresse plus vite que notre capacité à la mesurer, un constat qui donne le vertige

Cet article a été rédigé en m’appuyant sur une IA pour m’aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.

Cet article a été rédigé en m'appuyant sur une IA pour m'aider à synthétiser et structurer ma veille. Les idées, le choix des sources et la relecture restent les miens.