Jusqu'ici, la token anxiety semblait purement psychologique. Un réflexe de rareté mal calibré face à un outil d'abondance. Sauf que mars 2026 a révélé quelque chose de moins confortable : le fournisseur compte aussi.
3 mars 2026. Anthropic réduit le niveau d'effort par défaut de Claude de « high » à « medium ». Motif officiel : le feedback utilisateur sur la consommation excessive de tokens. En clair : les utilisateurs consommaient trop, le coût de service était trop élevé, la qualité par défaut a été réduite.
6-8 mars 2026. Le cache de prompts passe silencieusement de 1 heure à 5 minutes de durée de vie. Pas d'annonce. Un développeur a documenté 2 530 dollars de surcoûts sur 119 866 appels API en quatre mois.
26 mars 2026. Throttling aux heures de pointe. Moins de tokens disponibles entre 5h et 11h heure Pacifique. 7% des utilisateurs touchés.
Stella Laurenzo, directrice senior IA chez AMD, a publié une analyse de 6 852 sessions Claude Code : les violations de qualité sont passées de zéro avant le 8 mars à dix par jour fin mars. Les lectures de code par session sont tombées de 6,6 à 2.
En parallèle, Anthropic lançait le projet Glasswing : un modèle spécialisé nommé Claude Mythos Preview, taillé pour la cybersécurité offensive, partagé exclusivement avec AWS, Apple, Google, Microsoft, NVIDIA et JPMorgan. Un modèle jugé trop puissant pour être rendu public. 30 milliards de revenus annualisés, 14 milliards de pertes projetées en 2026, pas de cash flow positif avant 2029. Une entreprise dans cette situation fait nécessairement des arbitrages d'allocation de compute.