Claude Sonnet 4.6 : IA avec fenêtre 1 M jetons
Anthropic vient de frapper un grand coup. Le lancement de Claude Sonnet 4.6 redistribue les cartes dans le paysage des modèles d’intelligence artificielle. Ce nouveau modèle intermédiaire n’est pas une simple mise à jour cosmétique. Il représente une montée en gamme significative, capable de rivaliser avec les modèles de premier rang sur de nombreuses tâches critiques. Et tout cela au même tarif que son prédécesseur : 3 dollars par million de jetons en entrée, 15 dollars en sortie.

Une performance qui bouscule la hiérarchie tarifaire
Claude Sonnet 4.6 redéfinit ce qu’un modèle intermédiaire peut accomplir. Dans les tests internes menés sur Claude Code, les utilisateurs ont préféré Sonnet 4.6 à Sonnet 4.5 dans 70 % des cas. Plus frappant encore : il surpasse Claude Opus 4.5 dans 59 % des évaluations. C’est un résultat remarquable. Un modèle moins cher bat régulièrement son aîné premium.
Cette performance s’explique par des améliorations profondes. Le codage autonome, le raisonnement sur contexte long et la planification d’agents constituent les domaines où les progrès sont les plus visibles. Sur des sessions longues dans Claude Code, Sonnet 4.6 corrige des défauts comportementaux bien connus. Il réduit la tendance à la sur-ingénierie, évite la duplication de logique partagée et élimine les fausses déclarations de succès. Les utilisateurs rapportent moins d’hallucinations et un meilleur suivi des instructions que sur Opus 4.5.
La fenêtre d’un million de jetons : bien plus qu’un chiffre
L’annonce la plus spectaculaire concerne la fenêtre de contexte d’un million de jetons, disponible en version bêta. Ce chiffre impressionne sur le papier. Mais sa valeur réelle réside ailleurs. Ce n’est pas simplement une question de stockage brut d’informations.
Anthropic l’illustre avec le benchmark Vending-Bench Arena. Ce test évalue la capacité d’un modèle à piloter une entreprise simulée sur la durée, en concurrence directe avec d’autres modèles. Sonnet 4.6 y a développé une stratégie inédite. Il a investi massivement en capacité sur les dix premiers mois simulés. Puis il a pivoté brutalement vers la rentabilité au moment opportun. Ce timing lui a permis de terminer en tête.
Ce résultat prouve une chose essentielle. Sonnet 4.6 raisonne de manière cohérente sur l’ensemble du contexte disponible, sans se contenter de le stocker passivement. C’est précisément ce que les générations précédentes ne parvenaient pas à faire sur des contextes très longs.
Dans les cas d’usage documentaires, les bénéfices sont tout aussi concrets. Box rapporte que Sonnet 4.6 surpasse Sonnet 4.5 de 15 points sur les tâches de raisonnement appliquées à des documents d’entreprise réels. Pour les DSI qui déploient des agents sur des bases documentaires volumineuses, cela change tout. La dégradation de la qualité de raisonnement à mesure que le contexte s’étend — un problème bien documenté — semble ici significativement réduite.
L’agent IA Anthropic à l’épreuve du réel
Cette évolution s’inscrit dans une réflexion plus large sur la gouvernance des agents IA. Car un modèle puissant ne suffit pas. Il faut aussi des architectures de déploiement adaptées. Le site business-ia.com a analysé en profondeur ce sujet dans son article consacré à l’agent IA Anthropic, qui explore les limites rencontrées lors d’une expérience réelle : un agent autonome chargé de gérer un distributeur automatique. Résultat ? Face aux manipulations des clients, l’agent a cédé. Il a accordé des remises absurdes. Sa cohérence décisionnelle s’est effondrée.
La leçon est claire. Les capacités techniques ne remplacent pas les principes. Un agent IA performant doit être non seulement puissant, mais aussi encadré, supervisé et formé comme un vrai collaborateur. Sonnet 4.6 répond en partie à ce défi. Il améliore la résistance aux attaques par injection de prompt, un vecteur de risque critique pour les déploiements en environnement ouvert. Sur ce critère, il atteint un niveau comparable à Opus 4.6. C’est une avancée majeure pour les équipes qui déploient des agents sur des workflows multisources.
Computer use : vers des performances au niveau humain

Depuis octobre 2024, Anthropic progresse sur un segment particulièrement ambitieux : l’utilisation autonome de l’ordinateur. Les scores sur OSWorld — le benchmark de référence couvrant des tâches réelles sous Chrome, LibreOffice, VS Code — progressent de manière continue depuis seize mois. Sonnet 4.6 marque une rupture de tendance.
Des clients signalent des performances au niveau humain sur des tâches concrètes. Navigation dans des tableurs complexes. Remplissage de formulaires multi-étapes sur plusieurs onglets. Ce n’est plus de la promesse. C’est du déploiement en production.
Une plateforme développeur enrichie
Anthropic accompagne ce lancement d’un ensemble de mises à jour de la plateforme développeur. La compaction de contexte, désormais disponible en bêta, résume automatiquement les échanges anciens lorsque la conversation approche les limites de la fenêtre. Les sessions durent plus longtemps, sans intervention manuelle.
Les outils de recherche web et de fetch intègrent une exécution de code automatique pour filtrer et traiter les résultats. Cela réduit le contenu non pertinent dans le contexte. L’efficacité en jetons s’améliore sensiblement.
Plusieurs outils passent de la bêta à la disponibilité générale. L’exécution de code, la mémoire, l’appel d’outils programmatique, la recherche d’outils et les exemples d’utilisation d’outils. Pour les utilisateurs de Claude in Excel, l’add-in supporte désormais les connecteurs MCP. Claude peut interroger des sources externes sans quitter le tableur. Une évolution qui simplifie considérablement les intégrations en environnement financier ou analytique.
Ce que cela change pour les équipes IT

Sonnet 4.6 consolide une tendance de fond. À chaque génération, le seuil à partir duquel un cas d’usage justifie le recours à un modèle frontier recule. Les modèles intermédiaires gagnent du terrain sur les modèles premium. C’est une bonne nouvelle pour les équipes IT qui arbitrent entre coût d’inférence, qualité de traitement et complexité de supervision.
Le modèle est disponible par défaut sur claude.ai pour les plans Free et Pro. Il est accessible via l’API au même tarif que son prédécesseur. Pour les entreprises qui n’avaient pas encore adopté Claude, Sonnet 4.6 représente un point d’entrée idéal. Puissant, économique, capable de traiter des charges de travail complexes sans nécessiter systématiquement le recours aux modèles les plus coûteux.
La question n’est plus de savoir si Claude Sonnet 4.6 est capable. La question est : êtes-vous prêt à l’exploiter pleinement ?
