OpenRouter 最新模型周调用量排行:
账单数据不会说谎,谁才是真正的王者?

当 MMLU、HumanEval 榜单每周刷新「最强模型」时,真正在生产的开发者却在另一张表上投票——OpenRouter周(7 天滚动)统计的 Token 调用量。花出去的钱和跑出去的 Token 不会说谎:它衡量的是真实落地与市场认可度,而非实验室里的单次跑分。

本文面向在 Mac 上编排 OpenClaw、Cursor、Claude Code 等 Agent 的开发者与技术负责人,基于 2026 年 5 月 18–24 日 最新一周公开数据(统计截止日以 OpenRouter 官网为准),解读 28.9 万亿 Token 周调用格局、前十模型榜单、DeepSeek 矩阵称霸、Anthropic 溢价悖论,并给出六步按周追踪与路由调整清单。读完应能回答:该信 Benchmark 还是信账单、中美模型份额如何分化、以及 Agent 默认模型该如何按周迭代。

01 为什么 Token 账单比基准测试排行榜更可信:三类选型误区

OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一:接入 300+ 模型、覆盖 60+ 供应商,开发者通过统一接口调用 OpenAI、Anthropic、Google、DeepSeek 等模型。其 Rankings 页面按周 Token 吞吐量(输入 + 输出)排序,数据每周更新,免费公开查看。

  • Benchmark 与生产脱节:榜单常测单次推理极限能力,但 Agent 工作流更依赖稳定性、工具调用成功率、API 延迟与单价。OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》(基于约 100 万亿 Token 匿名元数据)指出:模型的基准测试分数与其实际市场份额几乎呈反比——开发者更在意推理成本,编程类任务占比已从 2025 年初约 11% 升至超 50%,成为最大单一用途。
  • 发布会叙事 vs 钱包投票:厂商 Keynote 强调「最强」,但 OpenRouter 周榜反映的是全球开发者持续付费调用的结果。一年前平台周处理量约 2.4 万亿 Token,至 2026 年 5 月下旬已达 28.9 万亿,约 12 倍增长——AI 应用已进入规模化爆发,账单增速比任何评测更能说明趋势。
  • 只看模型不看矩阵:单一型号排名会掩盖厂商策略。DeepSeek 同时让 V4-Flash、V4-Pro、V3.2 三款进入当周前十,系列合计周调用约 5.74 万亿 Token——比任何单一竞品都更接近「生态位统治」,而非偶然爆款。

核心论点:Token 调用量是衡量 AI 真实落地与市场认可度的体温计;在 Agent 与批处理主导的时代,周账单比 MMLU 分数更能指导你的默认路由。

官方排行榜与统计口径说明请访问以下页面(发版后请再次打开链接核对最新数值):

https://openrouter.ai/rankings

02 2026 年 5 月第三周:28.9 万亿 Token 与前十模型周排行

统计周期:2026 年 5 月 18 日–5 月 24 日(OpenRouter 按周 7 天滚动口径)。全球 AI 模型周 API 调用总量 28.9 万亿 Token,环比 +7.4%,连续第五周上涨。

全球周调用宏观指标(2026-05-18 至 2026-05-24)
指标 数值 环比 解读
全球周 Token 总量 28.9 万亿 +7.4% 连续五周上涨,需求持续释放
中国模型周调用量 9.223 万亿 +19.89% 连续四周超越美国模型
美国模型周调用量 4.93 万亿 +16.27% 增速可观但份额被反超
中国模型流量占比 约 45%+ 2025 年初不足 2%,两年格局重塑

当周模型维度 Top 10(按周 Token 量,交叉参照 OpenRouter 公开榜单与公开报道;个别条目为推算或二手整理,使用前请以官网为准):

OpenRouter 周调用量前十(2026-05-18 至 2026-05-24)
排名 模型 厂商 周 Token 量 特点
1 DeepSeek-V4-Flash DeepSeek(中国) 3.43T(+66%) Agent 工作流首选,极低单价
2 腾讯 Hy3 Preview Tencent(中国) 3.07T(+16%) 限免结束后仍高增长
3 Claude Sonnet 4.6 Anthropic(美国) 1.35T 百万上下文,企业编程主力
4 DeepSeek-V3.2 DeepSeek(中国) 1.31T 低价长尾,角色扮演活跃
5 Owl Alpha OpenRouter 1.15T(+29%) 免费 Agent 特化,百万上下文
6 Gemini 3 Flash Preview Google(美国) 1.06T 多模态,学术/医疗场景
7 DeepSeek-V4-Pro DeepSeek(中国) 1.00T 矩阵旗舰(系列合计约 5.74T)
8 MiniMax M2.7 MiniMax(中国) 806B 长上下文性价比
9 Grok 4.1 Fast xAI(美国) 721B 2M 上下文,法律场景
10 Step 3.5 Flash StepFun(中国) 673B 快速低价,批处理

DeepSeek 多模型矩阵:三款型号同时进入前十,系列周调用合计约 5.74 万亿 Token(环比约 +25.9%),连续两周在厂商维度超越 Anthropic 与 Google。前十中中国模型占半数以上,与 2025 年初中国流量占比不足 2% 相比,全球调用格局已被极低成本开源路线重塑。

注:Kimi K2.6 前一周曾排名第 6,当周跌出前十;V4-Pro 周量部分报道为系列总量减去 Flash 与 V3.2 的推算值。阅读本文时若已过数周,请以上述 Rankings 页面实时数据为准。

03 Token 份额 vs 美元收入:Anthropic 溢价悖论与市场三层结构

周调用量回答「谁被用得最多」,美元收入份额回答「谁赚得最多」——两张表叠在一起,才能看清 AI 商业化的真实分层。

厂商维度:流量主导权 vs 定价能力(OpenRouter 生态观察口径)
厂商/层级 Token 份额趋势 美元收入特征 典型场景
Anthropic Claude 约 12%(一年前约 25%) 美元收入份额约 46% 企业复杂推理,付费能力强
Google Gemini Flash 中等流量 中等单价 多模态、学术与医疗
DeepSeek / 腾讯 / MiniMax / StepFun 高流量、快速增长 极低价驱动 Agent、编程、批处理流水线

Anthropic 溢价悖论:Claude Opus 4.6 等旗舰月收入可达约 2500 万美元量级(公开财经与平台观察口径),但 Token 吞吐量仅为 DeepSeek 系列的零头。企业客户仍为高质量推理付高价,流量主导权却已向中国极低价模型倾斜——这正是「账单不会说谎」的第二层含义:市场在用钱包同时购买「能力溢价」与「规模性价比」,而非非此即彼。

市场三层结构:[高价值·低流量] Anthropic Opus → 复杂推理;[性价比·中流量] Gemini Flash → 多模态;[极低价·高流量] DeepSeek 矩阵 → Agent 与批处理。你的默认路由应落在明确一层,而非混用导致成本失控。

对投资者,OpenRouter 周榜已成为评估 AI 商业化进度的窗口(平台估值曾出现约 26x PS 量级讨论);对开发者,它是「不押宝单一厂商」时的中立温度计;对研究机构,它是追踪中美模型份额最直观的公开序列之一。

04 开发者六步:按周追踪 OpenRouter 排行并调整模型路由

  1. 固定每周一核对 Rankings:打开 OpenRouter Rankings,记录全球周总量、前十变动与环比箭头;将截图或 CSV 存入团队 Wiki,避免凭记忆选型。
  2. 拆分 Token 与美元两列账本:在 OpenRouter Dashboard 或自有计费系统,分别统计各模型周 Token 量周美元支出;若某模型 Token 占比高但业务价值低,优先降级为备用路由。
  3. 按场景映射三层结构:Agent/批处理默认 DeepSeek-V4-Flash 等极低价型号;企业级复杂推理保留 Claude Sonnet/Opus;多模态链路用 Gemini Flash;避免全栈绑死单一榜单第一名。
  4. 关注新进前十的「先兆模型」:Hy3 Preview、Owl Alpha 等短期内冲榜型号,往往在限免结束或 Agent 特化上线后仍保持高增速——适合作为 A/B 路由的候选,而非立即全量切换。
  5. 在 Mac Gateway 层做可热切换路由:OpenClaw、Cursor、Claude Code 等应将模型 ID 写在环境变量或配置文件,而非硬编码进 Skill;Gateway 所在 macOS 主机需 7×24 在线,笔记本合盖会导致 Agent 与路由策略同时失联。
  6. 每月复盘一次「Benchmark vs 账单」偏差:对照团队最关心的 SWE-bench 类指标与 OpenRouter 周份额,若高分模型账单占比持续偏低,说明生产环境更在意成本与延迟——应信任账单而非媒体标题。
openrouter-weekly-check.env
OPENROUTER_DEFAULT_MODEL=deepseek/deepseek-v4-flash
OPENROUTER_FALLBACK_MODEL=anthropic/claude-sonnet-4.6
OPENROUTER_WEEKLY_REVIEW_CRON=0 9 * * 1
curl -s https://openrouter.ai/api/v1/models | jq '.data[].id' | head

05 可引用数据、信源与 CALMVPS 收束

  • 统计周期:本文核心数据基于 OpenRouter 按周(7 天滚动)口径,快照截止 2026 年 5 月 24 日;全球周调用 28.9 万亿 Token,环比 +7.4%
  • DeepSeek-V4-Flash:当周约 3.43 万亿 Token,环比约 +66%,位居模型周榜第一(多家财经媒体引用 OpenRouter/Bloomberg 口径)。
  • 中美对比:中国模型周调用 9.223 万亿(+19.89%)vs 美国 4.93 万亿(+16.27%),中国连续四周第一。
  • DeepSeek 系列合计:5.74 万亿 Token/周,环比约 +25.9%,厂商维度领先 Anthropic 与 Google。
  • a16z × OpenRouter 报告:编程任务占比超 50%;基准分数与市场份额呈反比趋势(报告发布于 2025 年,引用时请以原文为准)。

OpenRouter 周榜揭示的真相很直白:不是谁最聪明,而是谁最被调用,才能推动 AI 真正落地。中国开源模型以极低成本拿走全球流量主导权,Anthropic 仍以高价守住企业利润池——开发者若只追 Benchmark,很容易在 Agent 账单上两周内失控。

把模型路由跑在 Mac 上时,常见替代方案的短板同样清晰:笔记本合盖休眠导致 Gateway 断连;Linux VPS 无法运行原生 macOS Agent 工具链;虚拟机 Mac 在 Metal 与 Xcode 路径上常有性能损耗。对需要 7×24 稳定在线、按月弹性扩缩 的 Agent 控制面与 CI 节点,CALMVPS 裸金属 Mac 租赁 提供独占 Apple Silicon、约 120 秒交付与日/周/月计费,让你在信任周账单选模型的同时,把 OpenClaw/Cursor 编排层放在不会休眠的生产级 macOS 上。机型与价格见 定价页,远程接入见 帮助中心