Während MMLU und HumanEval wöchentlich den „stärksten“ Modellnamen verkünden, stimmen Entwickler in Produktion über eine andere Metrik ab: das Token-Volumen, das OpenRouter in rollierenden Sieben-Tage-Fenstern veröffentlicht. Ausgegebene Dollar und verbrauchte Token sind schwerer zu fälschen als Laborscores — sie messen echte Adoption und Marktakzeptanz, nicht einen einmaligen Benchmark-Lauf.
Dieser Artikel richtet sich an Teams, die auf dem Mac mit OpenClaw, Cursor oder Claude Code Agenten betreiben. Auf Basis der öffentlichen Daten für 18.–24. Mai 2026 (Stichtag laut OpenRouter-Website) analysieren wir 28,9 Billionen wöchentliche Token, die Top-10-Modellliste, die DeepSeek-Matrix und das Anthropic-Paradox — und liefern eine Sechs-Schritte-Checkliste für wöchentliches Routing. Danach sollten Sie wissen, ob Benchmark oder Rechnung die bessere Leitplanke ist, wie sich China- und US-Modelle aufteilen und wie Sie Default-Modelle pro Woche anpassen.
01 Warum Token-Rechnungen Benchmarks schlagen: drei Auswahlfehler
OpenRouter ist eine der größten neutralen API-Aggregatoren für KI-Modelle: über 300 Modelle, mehr als 60 Anbieter, einheitliche Schnittstelle zu OpenAI, Anthropic, Google, DeepSeek und anderen. Die Seite Rankings sortiert nach wöchentlichem Token-Durchsatz (Eingabe + Ausgabe) und aktualisiert die Zahlen wöchentlich — kostenlos einsehbar.
- Benchmarks vs. Produktion: Ranglisten testen oft Einzelläufe unter Idealbedingungen. Agent-Workflows hängen stärker an Stabilität, Tool-Call-Erfolg, API-Latenz und Preis pro Million Token. Der gemeinsame Bericht von OpenRouter und a16z („2025 AI Usage Report“, basierend auf rund 100 Billionen Token anonymisierter Metadaten) zeigt: Benchmark-Werte und Marktanteil korrelieren nahezu invers — Entwickler optimieren auf Inferenzkosten. Programmieraufgaben stiegen von etwa 11 % Anfang 2025 auf über 50 % und sind damit der größte Einzelzweck.
- Keynote-Narrativ vs. Wallet-Abstimmung: Hersteller betonen „das stärkste Modell“, OpenRouter zeigt, wofür Teams dauerhaft bezahlen. Vor einem Jahr lag das wöchentliche Plattformvolumen bei etwa 2,4 Billionen Token; Ende Mai 2026 sind es 28,9 Billionen — rund zwölffach Wachstum. Diese Kurve beschreibt Skalierung besser als jede Pressemitteilung.
- Einzelmodell vs. Modellmatrix: Ein Ranglistenplatz blendet Strategien aus. DeepSeek platzierte in derselben Woche V4-Flash, V4-Pro und V3.2 in den Top Ten; die Serie summiert sich auf etwa 5,74 Billionen Token — mehr als jedes einzelne Konkurrenzmodell und ein Zeichen für Ökosystem-Dominanz, nicht für einen Zufallstreffer.
Für EU-Teams gilt unabhängig vom Modell: Prompts, Code und Logs aus Agent-Läufen können personenbezogene oder geschäftskritische Daten enthalten. Wer OpenRouter oder US-Regionen ohne Vertrag nutzt, muss DSGVO-Konformität (Rechtsgrundlage, Auftragsverarbeitung, Löschkonzept) vor Produktionsstart klären.
Kernaussage: Token-Aufrufe sind das Thermometer echter KI-Adoption. In einer Agent- und Batch-dominierten Ära leitet die Wochenrechnung das Default-Routing zuverlässiger als ein MMLU-Wert.
Offizielle Rankings und Methodik:
02 18.–24. Mai 2026: 28,9 Billionen Token und die Top-10-Modelle
Statistikzeitraum: 18.–24. Mai 2026 (Sieben-Tage-Rolling bei OpenRouter). Das globale wöchentliche API-Token-Volumen lag bei 28,9 Billionen, +7,4 % gegenüber der Vorwoche — der fünfte Anstieg in Folge.
| Kennzahl | Wert | WoW | Einordnung |
|---|---|---|---|
| Globales Wochen-Token-Volumen | 28,9 Bio. | +7,4 % | Fünfte Woche in Folge steigend |
| Chinesische Modelle | 9,223 Bio. | +19,89 % | Vier Wochen vor US-Modellen |
| US-Modelle | 4,93 Bio. | +16,27 % | Stark, aber Anteil verloren |
| China-Anteil am Traffic | ca. 45 %+ | — | Anfang 2025 unter 2 % — Umbruch |
Top 10 nach wöchentlichen Token (Quervergleich OpenRouter und öffentliche Berichte; Einzelwerte vor Nutzung auf der Website prüfen):
| Rang | Modell | Anbieter | Wochen-Token | Profil |
|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek (China) | 3,43T (+66 %) | Agent-Workflows, sehr niedriger Preis |
| 2 | Tencent Hy3 Preview | Tencent (China) | 3,07T (+16 %) | Hohes Wachstum nach Free-Tier-Ende |
| 3 | Claude Sonnet 4.6 | Anthropic (USA) | 1,35T | 1M Kontext, Enterprise-Coding |
| 4 | DeepSeek-V3.2 | DeepSeek (China) | 1,31T | Günstiges Long-Tail, Rollenspiel |
| 5 | Owl Alpha | OpenRouter | 1,15T (+29 %) | Kostenlos, Agent-fokussiert, 1M Kontext |
| 6 | Gemini 3 Flash Preview | Google (USA) | 1,06T | Multimodal, Akademie/Medizin |
| 7 | DeepSeek-V4-Pro | DeepSeek (China) | 1,00T | Matrix-Flaggschiff (Serie ~5,74T) |
| 8 | MiniMax M2.7 | MiniMax (China) | 806B | Langer Kontext, Preis-Leistung |
| 9 | Grok 4.1 Fast | xAI (USA) | 721B | 2M Kontext, Rechtsszenarien |
| 10 | Step 3.5 Flash | StepFun (China) | 673B | Schnell, günstig, Batch |
DeepSeek-Matrix: Drei Varianten gleichzeitig in den Top Ten, zusammen etwa 5,74 Billionen Token pro Woche (+25,9 % WoW), zwei Wochen in Folge vor Anthropic und Google auf Anbieter-Ebene. Mehr als die Hälfte der Top Ten stammt aus China — verglichen mit unter 2 % China-Traffic Anfang 2025 ein struktureller Shift zugunsten günstiger Open-Source-Routen.
Hinweis: Kimi K2.6 war in der Vorwoche noch Rang 6 und fiel aus den Top Ten; V4-Pro-Werte teils als Seriensumme minus Flash und V3.2 geschätzt. Für aktuelle Zahlen immer die Rankings-Seite öffnen.
Die wöchentliche Gesamtzahl von 28,9 Billionen Token entspricht im Schnitt etwa 4,1 Billionen pro Tag — ein Maßstab, an dem sich interne Team-Budgets orientieren lassen, wenn Sie Agent-Last von Entwicklungs- auf Produktionsumgebungen skalieren.
03 Token-Anteil vs. USD-Umsatz: Anthropic-Paradox und drei Marktschichten
Wochen-Token beantworten „wer wird am meisten aufgerufen“, USD-Anteile „wer verdient am meisten“. Erst beides zusammen zeigt die Kommerzialisierungsschichten.
| Anbieter / Schicht | Token-Trend | USD-Merkmal | Typische Szenarien |
|---|---|---|---|
| Anthropic Claude | ca. 12 % (vor einem Jahr ~25 %) | ca. 46 % USD-Anteil | Komplexe Enterprise-Reasoning |
| Google Gemini Flash | Mittlerer Traffic | Mittlerer Preis | Multimodal, Wissenschaft, Medizin |
| DeepSeek / Tencent / MiniMax / StepFun | Hoher Traffic, schnelles Wachstum | Extrem niedrige Preise | Agenten, Coding, Batch-Pipelines |
Anthropic-Paradox: Flaggschiffe wie Claude Opus 4.6 können monatlich im Bereich von etwa 25 Mio. USD Umsatz liegen (öffentliche Finanz- und Plattformbeobachtungen), während das Token-Volumen gegenüber der DeepSeek-Serie winzig bleibt. Enterprise-Kunden zahlen weiter Premium für Qualität, der Traffic-Schwerpunkt verschiebt sich aber zu chinesischen Billigmodellen. Der Markt kauft gleichzeitig „Fähigkeitsprämie“ und „Skaleneffizienz“ — nicht entweder oder.
Drei Schichten: [hoher Wert · wenig Traffic] Anthropic Opus für schwere Reasoning-Aufgaben; [Preis-Leistung · mittlerer Traffic] Gemini Flash für Multimodal; [Minimalpreis · hoher Traffic] DeepSeek-Matrix für Agenten und Batch. Default-Routing sollte klar einer Schicht zugeordnet sein — Mischbetrieb ohne Policy treibt Kosten.
Für Investoren ist das Wochenranking ein Fenster zur KI-Kommerzialisierung (Plattformbewertungen wurden mit etwa 26× PS diskutiert). Für Entwickler ist es ein neutrales Thermometer ohne Vendor-Lock-in. Für Forschung eine der transparentesten Zeitreihen zum China-US-Modellanteil.
Wer Agent-Pipelines in regulierten Branchen betreibt, sollte beim Lesen der Token-Anteile auch die Datenherkunft mitdenken: Prompts an US-Cloud-Modelle können außerhalb der EU verarbeitet werden. Dokumentieren Sie Modellwechsel im Verarbeitungsverzeichnis und prüfen Sie, ob ein EU-Proxy oder Self-Hosting die DSGVO-Risiken senkt — unabhängig davon, ob DeepSeek oder Claude im Ranking oben steht.
04 Sechs Schritte: OpenRouter wöchentlich prüfen und Routing anpassen
- Jeden Montag Rankings öffnen: Globales Wochenvolumen, Top-Ten-Wechsel und WoW-Pfeile notieren; Screenshot oder Export ins Team-Wiki — nicht aus dem Gedächtnis wählen.
- Token- und USD-Spalten trennen: Im OpenRouter-Dashboard oder eigenem Billing je Modell Wochen-Token und Wochen-USD führen. Hoher Token-Anteil bei geringem Business-Wert → Downgrade auf Fallback-Routing.
- Drei Schichten auf Szenarien mappen: Agent/Batch default DeepSeek-V4-Flash; komplexe Enterprise-Tasks Claude Sonnet/Opus; Multimodal Gemini Flash. Nicht alles auf Rang 1 legen.
- Neue Top-Ten als Frühindikatoren: Hy3 Preview, Owl Alpha und ähnliche Sprünge oft nach Free-Tier-Ende oder Agent-Spezialisierung — als A/B-Kandidaten, nicht sofort Vollumstellung.
- Hot-Swap am Mac-Gateway: Modell-IDs in Umgebungsvariablen oder OpenClaw-Config, nicht in Skills hardcoden. Der macOS-Host braucht 7×24 Betrieb — zugeklapptes MacBook trennt Agent und Routing gleichzeitig.
- Monatlich Benchmark vs. Rechnung: SWE-bench-Kennzahlen mit OpenRouter-Wochenanteil vergleichen. Bleibt das teure Modell in der Rechnung unterrepräsentiert, zählt in Produktion Kosten und Latenz mehr als Medienheadlines.
OPENROUTER_DEFAULT_MODEL=deepseek/deepseek-v4-flash
OPENROUTER_FALLBACK_MODEL=anthropic/claude-sonnet-4.6
OPENROUTER_WEEKLY_REVIEW_CRON=0 9 * * 1
curl -s https://openrouter.ai/api/v1/models | jq '.data[].id' | head
05 Zitierbare Daten, Quellen und CALMVPS
- Zeitraum: Sieben-Tage-Rolling, Snapshot bis 24. Mai 2026; global 28,9 Billionen Token, +7,4 % WoW.
- DeepSeek-V4-Flash: ca. 3,43 Billionen Token, +66 %, Modell-Rang 1 (Finanzmedien zitieren OpenRouter/Bloomberg).
- China vs. USA: 9,223 Bio. (+19,89 %) gegenüber 4,93 Bio. (+16,27 %) — China vier Wochen in Folge vorn.
- DeepSeek-Serie gesamt: ca. 5,74 Bio. Token/Woche, +25,9 %, Anbieter-Rang vor Anthropic und Google.
- a16z × OpenRouter: Coding über 50 % des Traffics; Benchmark-Score und Marktanteil tendenziell invers (Bericht 2025, Original prüfen).
Die Wahrheit der Wochenliste ist nüchtern: entscheidend ist, wer aufgerufen wird — nicht wer im Labor am schlausten wirkt. Chinesische Open-Source-Modelle gewinnen Traffic mit Minimalpreisen; Anthropic hält die Enterprise-Margen. Wer nur Benchmarks jagt, verliert Agent-Rechnungen oft innerhalb von zwei Wochen.
Auf dem Mac scheitern Alternativen strukturell: MacBook-Sleep trennt das Gateway; Linux-VPS ohne native macOS-Agent-Toolchains; virtuelle Macs mit Metal- und Xcode-Einbußen. Für 7×24-Stabilität und monatliche Skalierung bietet CALMVPS Bare-Metal-Miete exklusives Apple Silicon, Lieferung in etwa 120 Sekunden und Tages-/Wochen-/Monatsabrechnung — damit OpenClaw und Cursor auf einem wachen Produktions-macOS laufen, während Sie Routing nach Wochenrechnung steuern. Preise: Mac-mini-M4-Mietpreise, Betrieb: Hilfezentrum, Bestellung: Mac mini M4 bestellen.