Chaque semaine, MMLU et HumanEval proclament le « meilleur modèle ». En production, les équipes votent autrement : le volume de tokens que OpenRouter publie sur des fenêtres glissantes de sept jours. Les dollars dépensés et les tokens consommés mesurent l’adoption réelle, pas un score de laboratoire isolé.
Cet article s’adresse aux développeurs et responsables techniques qui orchestrent OpenClaw, Cursor ou Claude Code sur Mac. À partir des données publiques du 18 au 24 mai 2026 (date de référence sur le site OpenRouter), nous décryptons 28,9 billions de tokens hebdomadaires, le Top 10, la matrice DeepSeek et le paradoxe Anthropic, avec une checklist en six étapes pour ajuster le routage chaque semaine. Vous saurez s’il vaut mieux suivre les benchmarks ou la facture, comment se partagent les modèles chinois et américains, et comment faire évoluer vos modèles par défaut.
01 Pourquoi la facture tokens bat les benchmarks : trois erreurs de choix
OpenRouter agrège plus de 300 modèles et 60 fournisseurs derrière une API unique — OpenAI, Anthropic, Google, DeepSeek, etc. La page Rankings trie par débit hebdomadaire de tokens (entrée + sortie), mise à jour chaque semaine et consultable gratuitement.
- Benchmarks vs production : les classements mesurent souvent la performance en inférence unique. Les workflows Agent dépendent de la stabilité, du taux de succès des appels d’outils, de la latence API et du prix au million. Le rapport conjoint OpenRouter × a16z (« 2025 AI Usage Report », ~100 billions de tokens de métadonnées anonymisées) montre une corrélation quasi inverse entre score benchmark et part de marché — les équipes optimisent le coût. Le code représente plus de 50 % des usages (contre ~11 % début 2025).
- Keynote vs vote du portefeuille : les éditeurs vendent « le plus fort », OpenRouter reflète ce que les développeurs paient en continu. Il y a un an, la plateforme traitait ~2,4 billions de tokens par semaine ; fin mai 2026 : 28,9 billions — croissance d’environ ×12, plus parlante que toute démo.
- Modèle isolé vs matrice : un seul rang masque la stratégie produit. DeepSeek place V4-Flash, V4-Pro et V3.2 dans le Top 10 la même semaine ; la série totalise ~5,74 billions de tokens — domination d’écosystème, pas coup de chance.
Pour les équipes européennes : prompts, extraits de code et journaux d’agents peuvent contenir des données personnelles ou sensibles. Utiliser OpenRouter ou des régions US sans cadre contractuel impose de vérifier la conformité RGPD (base légale, sous-traitance, suppression) avant la mise en production.
Thèse centrale : le volume de tokens est le thermomètre de l’adoption réelle. À l’ère des agents et du batch, la facture hebdomadaire guide le routage mieux qu’un score MMLU.
Classements officiels et méthodologie :
02 18–24 mai 2026 : 28,9 billions de tokens et le Top 10
Période : 18–24 mai 2026 (fenêtre glissante de 7 jours OpenRouter). Volume global hebdomadaire : 28,9 billions de tokens, +7,4 % semaine sur semaine — cinquième hausse consécutive.
| Indicateur | Valeur | Sem./sem. | Lecture |
|---|---|---|---|
| Volume global hebdo. | 28,9 billions | +7,4 % | Cinquième semaine de hausse |
| Modèles chinois | 9,223 billions | +19,89 % | Quatre semaines devant les US |
| Modèles américains | 4,93 billions | +16,27 % | Forte croissance, part en baisse |
| Part trafic Chine | ~45 %+ | — | Début 2025 < 2 % — bascule structurelle |
Top 10 par tokens hebdomadaires (recoupement OpenRouter et presse ; vérifier sur le site avant usage) :
| Rang | Modèle | Éditeur | Tokens/semaine | Profil |
|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek (Chine) | 3,43T (+66 %) | Agents, prix très bas |
| 2 | Tencent Hy3 Preview | Tencent (Chine) | 3,07T (+16 %) | Croissance post offre gratuite |
| 3 | Claude Sonnet 4.6 | Anthropic (États-Unis) | 1,35T | 1M contexte, code entreprise |
| 4 | DeepSeek-V3.2 | DeepSeek (Chine) | 1,31T | Long tail bon marché |
| 5 | Owl Alpha | OpenRouter | 1,15T (+29 %) | Gratuit, agent, 1M contexte |
| 6 | Gemini 3 Flash Preview | Google (États-Unis) | 1,06T | Multimodal, académique/médical |
| 7 | DeepSeek-V4-Pro | DeepSeek (Chine) | 1,00T | Flagship matrice (~5,74T série) |
| 8 | MiniMax M2.7 | MiniMax (Chine) | 806B | Long contexte, rapport qualité/prix |
| 9 | Grok 4.1 Fast | xAI (États-Unis) | 721B | 2M contexte, juridique |
| 10 | Step 3.5 Flash | StepFun (Chine) | 673B | Rapide, batch économique |
Matrice DeepSeek : trois variantes dans le Top 10, ~5,74 billions de tokens combinés (+25,9 % sem./sem.), deux semaines consécutives devant Anthropic et Google au niveau éditeur. Plus de la moitié du Top 10 est chinois — contre moins de 2 % de trafic Chine début 2025, signe d’un basculement vers l’open source à très bas coût.
Note : Kimi K2.6 était 6e la semaine précédente et sort du Top 10 ; V4-Pro parfois estimé comme total série moins Flash et V3.2. Pour les chiffres actuels, consulter la page Rankings.
03 Part tokens vs revenus USD : paradoxe Anthropic et trois couches de marché
Les tokens hebdomadaires répondent à « qui est le plus appelé », les parts en dollars à « qui gagne le plus ». Les deux tableaux superposés révèlent la structure commerciale.
| Éditeur / couche | Tendance tokens | Revenus USD | Scénarios typiques |
|---|---|---|---|
| Anthropic Claude | ~12 % (il y a un an ~25 %) | ~46 % des revenus USD | Raisonnement complexe entreprise |
| Google Gemini Flash | Trafic moyen | Prix moyen | Multimodal, science, santé |
| DeepSeek / Tencent / MiniMax / StepFun | Trafic élevé, croissance rapide | Prix très bas | Agents, code, pipelines batch |
Paradoxe Anthropic : des flagship comme Claude Opus 4.6 peuvent générer ~25 M USD de revenus mensuels (observations publiques finance/plateforme), avec un volume de tokens infime face à DeepSeek. Les clients entreprise paient encore la prime qualité, mais le centre de gravité du trafic bascule vers les modèles chinois ultra-bon marché. Le marché achète simultanément « prime de capacité » et « efficacité à l’échelle ».
Trois couches : [haute valeur · faible trafic] Anthropic Opus pour raisonnement lourd ; [rapport qualité/prix · trafic moyen] Gemini Flash multimodal ; [prix minimal · trafic élevé] matrice DeepSeek pour agents et batch. Le routage par défaut doit viser une couche claire — le mélange sans politique fait exploser les coûts.
Pour les investisseurs, le classement hebdo éclaire la commercialisation de l’IA (discussions autour de ~26× PS pour la plateforme). Pour les développeurs, c’est un thermomètre neutre sans lock-in. Pour la recherche, une des séries publiques les plus lisibles sur la part Chine/États-Unis.
04 Six étapes : suivre OpenRouter chaque semaine et ajuster le routage
- Chaque lundi, ouvrir Rankings : noter volume global, changements Top 10 et flèches sem./sem. ; archiver capture ou export dans le wiki d’équipe.
- Séparer colonnes tokens et USD : dans le dashboard OpenRouter ou votre billing, suivre tokens/semaine et USD/semaine par modèle. Forte part tokens, faible valeur métier → rétrograder en fallback.
- Mapper les trois couches : agents/batch en DeepSeek-V4-Flash ; raisonnement entreprise en Claude Sonnet/Opus ; multimodal en Gemini Flash. Ne pas tout mettre sur le rang 1.
- Surveiller les nouveaux Top 10 : Hy3 Preview, Owl Alpha — souvent forte croissance après fin d’offre gratuite ou spécialisation agent ; candidats A/B, pas bascule totale immédiate.
- Hot-swap au niveau gateway Mac : IDs modèle dans variables d’environnement ou config OpenClaw, pas hardcodés dans les skills. L’hôte macOS doit rester 7×24 éveillé — MacBook en veille coupe agent et routage.
- Revue mensuelle benchmark vs facture : comparer SWE-bench et parts hebdo OpenRouter. Si le modèle cher reste sous-représenté en facture, la production privilégie coût et latence — faites confiance à la facture.
OPENROUTER_DEFAULT_MODEL=deepseek/deepseek-v4-flash
OPENROUTER_FALLBACK_MODEL=anthropic/claude-sonnet-4.6
OPENROUTER_WEEKLY_REVIEW_CRON=0 9 * * 1
curl -s https://openrouter.ai/api/v1/models | jq '.data[].id' | head
05 Données citables, sources et conclusion CALMVPS
- Période : fenêtre 7 jours, snapshot jusqu’au 24 mai 2026 ; global 28,9 billions de tokens, +7,4 % sem./sem.
- DeepSeek-V4-Flash : ~3,43 billions, +66 %, rang modèle 1 (presse financière cite OpenRouter/Bloomberg).
- Chine vs États-Unis : 9,223 billions (+19,89 %) vs 4,93 billions (+16,27 %) — Chine en tête quatre semaines.
- Série DeepSeek : ~5,74 billions/semaine, +25,9 %, devant Anthropic et Google au niveau éditeur.
- a16z × OpenRouter : code > 50 % du trafic ; score benchmark et part de marché tendanciellement inverses (rapport 2025, vérifier l’original).
La leçon du classement hebdo est directe : ce n’est pas qui est le plus intelligent, mais qui est le plus appelé qui fait avancer l’IA en production. Les modèles open source chinois captent le trafic à prix minimal ; Anthropic garde les marges entreprise. Chasser uniquement les benchmarks peut faire déraper la facture agent en deux semaines.
Sur Mac, les alternatives échouent souvent : MacBook endormi coupe le gateway ; VPS Linux sans toolchain macOS native ; Mac virtuel avec pertes Metal/Xcode. Pour 7×24, montée en charge mensuelle, la location Mac bare-metal CALMVPS offre Apple Silicon dédié, livraison ~120 s et facturation jour/semaine/mois — OpenClaw et Cursor sur un macOS de production éveillé pendant que vous routez selon la facture hebdo. Tarifs : tarifs location Mac mini M4, aide : centre d’aide, commande : commander Mac mini M4.