EVMbench IA : évalue les agents sur vulnérabilités de contrats
L’intelligence artificielle entre dans une nouvelle ère. OpenAI et Paradigm viennent de publier EVMbench, un cadre d’évaluation inédit qui mesure concrètement la capacité des agents IA à détecter, corriger et exploiter des failles critiques dans des contrats intelligents réels. Cette annonce marque un tournant dans la façon dont le secteur de la cybersécurité perçoit et évalue les modèles de langage avancés.

Jusqu’à présent, les benchmarks existants restaient incomplets. Ils mesuraient des compétences partielles. Génération de code, résolution de problèmes ou tests unitaires étaient certes évalués, mais aucun protocole ne permettait de quantifier la capacité d’un agent à mener une chaîne d’attaque de bout en bout. EVMbench IA comble cette lacune méthodologique de façon rigoureuse et reproductible.
Une architecture pensée pour le monde réel
EVMbench repose sur 120 vulnérabilités de sévérité élevée, issues de 40 audits compétitifs réalisés sur la plateforme Code4rena. Ces failles ne sont pas théoriques. Elles proviennent de contrats effectivement déployés sur des blockchains en production, avec des actifs réels en jeu. L’environnement de test est une instance Ethereum locale isolée, ce qui garantit un contexte d’exécution déterministe.
Le dispositif évalue les agents selon trois modes distincts, le mode Détection mesure la capacité à identifier une faille et le mode Correction évalue la capacité à proposer un correctif adéquat. Enfin, le mode Exploitation — le plus sensible — détermine si un agent peut construire et exécuter une attaque autonome, depuis l’analyse du code jusqu’au transfert effectif de valeur sur la chaîne.
Ce dernier mode est particulièrement révélateur. L’agent reçoit un point d’accès RPC, une clé privée approvisionnée et les métadonnées des contrats cibles. Il doit ensuite analyser la chaîne, déployer d’éventuels contrats auxiliaires et construire les transactions nécessaires. La notation repose exclusivement sur l’état inscrit sur la chaîne après exécution, via un cadre de réexécution développé en Rust.
Des performances qui progressent rapidement
Les résultats publiés sont éloquents. GPT-5 atteignait seulement 31,9 % en mode Exploitation. Claude Opus 4.6, exécuté via Claude Code, monte à 61,1 %. GPT-5.2 au niveau de raisonnement maximal atteint 62,5 %. Et GPT-5.3-Codex dépasse tous les agents évalués avec 72,2 %, tout en étant le plus économe en tokens de sortie.
Ces chiffres doublent en à peine six mois. La progression est vertigineuse. Elle soulève des questions cruciales sur la sécurité des actifs numériques, notamment les plus de 100 milliards de dollars régulièrement déposés dans des contrats intelligents open source.
L’infrastructure d’orchestration joue aussi un rôle déterminant. GPT-5.2 exécuté via une simple boucle ReAct obtient 51,4 % en mode Exploitation. Le même modèle, via Codex CLI avec le même niveau de raisonnement, atteint 62,5 %. L’outillage modifie donc significativement les scores, indépendamment des capacités intrinsèmes du modèle.
Un cas concret d’exploitation autonome
Un exemple documenté illustre parfaitement la nature de ces capacités. Dans une tâche spécifique, GPT-5.2 identifie une absence de contrôle d’accès dans le pipeline BalancerFlashLoan du protocole NOYA. Il encode ensuite une séquence de deux appels dans le champ userData d’un prêt flash. Objectif : siphonner le solde d’un coffre vers son propre portefeuille.
La transaction est exécutée avec succès. Le connecteur victime est vidé. Le portefeuille de l’agent détient les jetons détournés. L’ensemble du processus — identification, construction de l’exploitation, vérification sur la chaîne — se déroule sans aucune intervention humaine. Ce niveau d’autonomie est inédit dans les évaluations publiées à ce jour.
Le mode Correction : une dissociation révélatrice

EVMbench révèle une dissociation nette entre capacité de découverte et capacité de remédiation IA. En mode Correction, GPT-5.2 sans indication ne score que 39,3 %. Avec une indication intermédiaire décrivant le mécanisme défaillant, le même modèle atteint 93,9 %. L’écart est de 54 points de pourcentage.
Ce résultat est crucial pour les équipes de sécurité. Il signifie que la difficulté ne réside pas dans la correction du code Solidity en elle-même. Elle réside dans la phase de découverte autonome au sein de dépôts volumineux. Un agent peut être un outil de remédiation redoutable si un auditeur humain a préalablement identifié la faille.
En revanche, utiliser ces agents comme filtre initial sur un dépôt inconnu reste risqué. Claude Opus 4.6, meilleur modèle en mode Détection, plafonne à 45,6 %. Plus de la moitié des vulnérabilités de sévérité élevée passent inaperçues.
Des enjeux financiers et stratégiques considérables
Ces résultats s’inscrivent dans un contexte économique tendu. Le financement de l’IA générative coûte des sommes astronomiques. Sur ce point, il est éclairant de lire l’analyse proposée par OpenAI financement, qui détaille les défis de viabilité économique auxquels fait face l’entreprise : malgré un succès mondial, OpenAI pourrait se retrouver à court de liquidités dans 18 mois, avec des besoins d’infrastructure estimés à près de 1 400 milliards de dollars. Cette pression financière rend d’autant plus stratégique le développement d’outils comme EVMbench, qui permettent de démontrer la valeur opérationnelle réelle des modèles les plus avancés.
Car EVMbench transforme un risque théorique en capacité mesurable et monétisable. En termes financiers, Claude Opus 4.6 obtient la récompense d’audit simulée la plus élevée : 37 824 dollars en moyenne, sur un maximum atteignable de 218 434 dollars.
Sécurité, éthique et dualité des usages
OpenAI reconnaît explicitement la dimension duale d’EVMbench. Les mêmes capacités permettant à un agent de détecter et corriger des vulnérabilités permettent également de les exploiter à des fins malveillantes. Des acteurs étatiques ont déjà utilisé des piratages de cryptomonnaies pour se financer. Cette réalité est prise au sérieux.
Le cadre intègre plusieurs mécanismes de durcissement. Un proxy JSON-RPC nommé « veto » filtre les méthodes Anvil indisponibles en production pour empêcher toute triche. La phrase mnémonique des comptes préfinancés est remplacée par une valeur non documentée. Le code est publié en open source sur GitHub, accompagné d’une chaîne canari permettant aux chercheurs d’exclure les données d’EVMbench de leurs corpus d’entraînement futurs.
Une mesure de référence désormais incontournable

EVMbench IA pose une mesure de référence dans un domaine où la progression des modèles est fulgurante. Il transforme une tendance qualitative en donnée chiffrée, reproductible et directement corrélée à un transfert de valeur réel. Pour les équipes de sécurité, les auditeurs, les chercheurs et les régulateurs, ce cadre devient incontournable. L’IA ne se contente plus de générer du code. Elle peut désormais attaquer, corriger et défendre des systèmes critiques avec une autonomie croissante. Comprendre précisément ses capacités n’est plus une option. C’est une nécessité absolue.
Métadescription : EVMbench IA, publié par OpenAI et Paradigm, évalue les agents IA sur 120 vulnérabilités de contrats intelligents réels selon trois modes : Détection, Correction et Exploitation. Découvrez les résultats, les enjeux de cybersécurité et les implications pour les audits blockchain.
Prompt image (en anglais) : A futuristic digital illustration showing an AI agent analyzing Ethereum smart contract code on glowing holographic screens, with blockchain nodes in the background, red vulnerability alerts highlighted in the code, and a dark cybersecurity atmosphere with blue and red neon lights — ultra-detailed, cinematic, 4K.
