OpenRouter 周调用量排行解读

当 MMLU、HumanEval 榜单每周刷新「最强模型」时，真正在生产的开发者却在另一张表上投票——OpenRouter 按周（7 天滚动）统计的 Token 调用量。花出去的钱和跑出去的 Token 不会说谎：它衡量的是真实落地与市场认可度，而非实验室里的单次跑分。

本文面向在 Mac 上编排 OpenClaw、Cursor、Claude Code 等 Agent 的开发者与技术负责人，基于 2026 年 5 月 18–24 日 最新一周公开数据（统计截止日以 OpenRouter 官网为准），解读 28.9 万亿 Token 周调用格局、前十模型榜单、DeepSeek 矩阵称霸、Anthropic 溢价悖论，并给出六步按周追踪与路由调整清单。读完应能回答：该信 Benchmark 还是信账单、中美模型份额如何分化、以及 Agent 默认模型该如何按周迭代。

01 为什么 Token 账单比基准测试排行榜更可信：三类选型误区

OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一：接入 300+ 模型、覆盖 60+ 供应商，开发者通过统一接口调用 OpenAI、Anthropic、Google、DeepSeek 等模型。其 Rankings 页面按周 Token 吞吐量（输入 + 输出）排序，数据每周更新，免费公开查看。

Benchmark 与生产脱节：榜单常测单次推理极限能力，但 Agent 工作流更依赖稳定性、工具调用成功率、API 延迟与单价。OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》（基于约 100 万亿 Token 匿名元数据）指出：模型的基准测试分数与其实际市场份额几乎呈反比——开发者更在意推理成本，编程类任务占比已从 2025 年初约 11% 升至超 50%，成为最大单一用途。
发布会叙事 vs 钱包投票：厂商 Keynote 强调「最强」，但 OpenRouter 周榜反映的是全球开发者持续付费调用的结果。一年前平台周处理量约 2.4 万亿 Token，至 2026 年 5 月下旬已达 28.9 万亿，约 12 倍增长——AI 应用已进入规模化爆发，账单增速比任何评测更能说明趋势。
只看模型不看矩阵：单一型号排名会掩盖厂商策略。DeepSeek 同时让 V4-Flash、V4-Pro、V3.2 三款进入当周前十，系列合计周调用约 5.74 万亿 Token——比任何单一竞品都更接近「生态位统治」，而非偶然爆款。

核心论点：Token 调用量是衡量 AI 真实落地与市场认可度的体温计；在 Agent 与批处理主导的时代，周账单比 MMLU 分数更能指导你的默认路由。

官方排行榜与统计口径说明请访问以下页面（发版后请再次打开链接核对最新数值）：

https://openrouter.ai/rankings

02 2026 年 5 月第三周：28.9 万亿 Token 与前十模型周排行

统计周期：2026 年 5 月 18 日–5 月 24 日（OpenRouter 按周 7 天滚动口径）。全球 AI 模型周 API 调用总量 28.9 万亿 Token，环比 +7.4%，连续第五周上涨。

全球周调用宏观指标（2026-05-18 至 2026-05-24）
指标	数值	环比	解读
全球周 Token 总量	28.9 万亿	+7.4%	连续五周上涨，需求持续释放
中国模型周调用量	9.223 万亿	+19.89%	连续四周超越美国模型
美国模型周调用量	4.93 万亿	+16.27%	增速可观但份额被反超
中国模型流量占比	约 45%+	—	2025 年初不足 2%，两年格局重塑

当周模型维度 Top 10（按周 Token 量，交叉参照 OpenRouter 公开榜单与公开报道；个别条目为推算或二手整理，使用前请以官网为准）：

OpenRouter 周调用量前十（2026-05-18 至 2026-05-24）
排名	模型	厂商	周 Token 量	特点
1	DeepSeek-V4-Flash	DeepSeek（中国）	3.43T（+66%）	Agent 工作流首选，极低单价
2	腾讯 Hy3 Preview	Tencent（中国）	3.07T（+16%）	限免结束后仍高增长
3	Claude Sonnet 4.6	Anthropic（美国）	1.35T	百万上下文，企业编程主力
4	DeepSeek-V3.2	DeepSeek（中国）	1.31T	低价长尾，角色扮演活跃
5	Owl Alpha	OpenRouter	1.15T（+29%）	免费 Agent 特化，百万上下文
6	Gemini 3 Flash Preview	Google（美国）	1.06T	多模态，学术/医疗场景
7	DeepSeek-V4-Pro	DeepSeek（中国）	1.00T	矩阵旗舰（系列合计约 5.74T）
8	MiniMax M2.7	MiniMax（中国）	806B	长上下文性价比
9	Grok 4.1 Fast	xAI（美国）	721B	2M 上下文，法律场景
10	Step 3.5 Flash	StepFun（中国）	673B	快速低价，批处理

DeepSeek 多模型矩阵：三款型号同时进入前十，系列周调用合计约 5.74 万亿 Token（环比约 +25.9%），连续两周在厂商维度超越 Anthropic 与 Google。前十中中国模型占半数以上，与 2025 年初中国流量占比不足 2% 相比，全球调用格局已被极低成本开源路线重塑。

注：Kimi K2.6 前一周曾排名第 6，当周跌出前十；V4-Pro 周量部分报道为系列总量减去 Flash 与 V3.2 的推算值。阅读本文时若已过数周，请以上述 Rankings 页面实时数据为准。

03 Token 份额 vs 美元收入：Anthropic 溢价悖论与市场三层结构

周调用量回答「谁被用得最多」，美元收入份额回答「谁赚得最多」——两张表叠在一起，才能看清 AI 商业化的真实分层。

厂商维度：流量主导权 vs 定价能力（OpenRouter 生态观察口径）
厂商/层级	Token 份额趋势	美元收入特征	典型场景
Anthropic Claude	约 12%（一年前约 25%）	美元收入份额约 46%	企业复杂推理，付费能力强
Google Gemini Flash	中等流量	中等单价	多模态、学术与医疗
DeepSeek / 腾讯 / MiniMax / StepFun	高流量、快速增长	极低价驱动	Agent、编程、批处理流水线

Anthropic 溢价悖论：Claude Opus 4.6 等旗舰月收入可达约 2500 万美元量级（公开财经与平台观察口径），但 Token 吞吐量仅为 DeepSeek 系列的零头。企业客户仍为高质量推理付高价，流量主导权却已向中国极低价模型倾斜——这正是「账单不会说谎」的第二层含义：市场在用钱包同时购买「能力溢价」与「规模性价比」，而非非此即彼。

市场三层结构：[高价值·低流量] Anthropic Opus → 复杂推理；[性价比·中流量] Gemini Flash → 多模态；[极低价·高流量] DeepSeek 矩阵 → Agent 与批处理。你的默认路由应落在明确一层，而非混用导致成本失控。

对投资者，OpenRouter 周榜已成为评估 AI 商业化进度的窗口（平台估值曾出现约 26x PS 量级讨论）；对开发者，它是「不押宝单一厂商」时的中立温度计；对研究机构，它是追踪中美模型份额最直观的公开序列之一。

04 开发者六步：按周追踪 OpenRouter 排行并调整模型路由

固定每周一核对 Rankings：打开 OpenRouter Rankings，记录全球周总量、前十变动与环比箭头；将截图或 CSV 存入团队 Wiki，避免凭记忆选型。
拆分 Token 与美元两列账本：在 OpenRouter Dashboard 或自有计费系统，分别统计各模型周 Token 量与周美元支出；若某模型 Token 占比高但业务价值低，优先降级为备用路由。
按场景映射三层结构：Agent/批处理默认 DeepSeek-V4-Flash 等极低价型号；企业级复杂推理保留 Claude Sonnet/Opus；多模态链路用 Gemini Flash；避免全栈绑死单一榜单第一名。
关注新进前十的「先兆模型」：如 Hy3 Preview、Owl Alpha 等短期内冲榜型号，往往在限免结束或 Agent 特化上线后仍保持高增速——适合作为 A/B 路由的候选，而非立即全量切换。
在 Mac Gateway 层做可热切换路由：OpenClaw、Cursor、Claude Code 等应将模型 ID 写在环境变量或配置文件，而非硬编码进 Skill；Gateway 所在 macOS 主机需 7×24 在线，笔记本合盖会导致 Agent 与路由策略同时失联。
每月复盘一次「Benchmark vs 账单」偏差：对照团队最关心的 SWE-bench 类指标与 OpenRouter 周份额，若高分模型账单占比持续偏低，说明生产环境更在意成本与延迟——应信任账单而非媒体标题。

openrouter-weekly-check.env

OPENROUTER_DEFAULT_MODEL=deepseek/deepseek-v4-flash
OPENROUTER_FALLBACK_MODEL=anthropic/claude-sonnet-4.6
OPENROUTER_WEEKLY_REVIEW_CRON=0 9 * * 1
curl -s https://openrouter.ai/api/v1/models | jq '.data[].id' | head

05 可引用数据、信源与 CALMVPS 收束

统计周期：本文核心数据基于 OpenRouter 按周（7 天滚动）口径，快照截止 2026 年 5 月 24 日；全球周调用 28.9 万亿 Token，环比 +7.4%。
DeepSeek-V4-Flash：当周约 3.43 万亿 Token，环比约 +66%，位居模型周榜第一（多家财经媒体引用 OpenRouter/Bloomberg 口径）。
中美对比：中国模型周调用 9.223 万亿（+19.89%）vs 美国 4.93 万亿（+16.27%），中国连续四周第一。
DeepSeek 系列合计：约 5.74 万亿 Token/周，环比约 +25.9%，厂商维度领先 Anthropic 与 Google。
a16z × OpenRouter 报告：编程任务占比超 50%；基准分数与市场份额呈反比趋势（报告发布于 2025 年，引用时请以原文为准）。

OpenRouter 周榜揭示的真相很直白：不是谁最聪明，而是谁最被调用，才能推动 AI 真正落地。中国开源模型以极低成本拿走全球流量主导权，Anthropic 仍以高价守住企业利润池——开发者若只追 Benchmark，很容易在 Agent 账单上两周内失控。

把模型路由跑在 Mac 上时，常见替代方案的短板同样清晰：笔记本合盖休眠导致 Gateway 断连；Linux VPS 无法运行原生 macOS Agent 工具链；虚拟机 Mac 在 Metal 与 Xcode 路径上常有性能损耗。对需要 7×24 稳定在线、按月弹性扩缩 的 Agent 控制面与 CI 节点，CALMVPS 裸金属 Mac 租赁 提供独占 Apple Silicon、约 120 秒交付与日/周/月计费，让你在信任周账单选模型的同时，把 OpenClaw/Cursor 编排层放在不会休眠的生产级 macOS 上。机型与价格见定价页，远程接入见帮助中心。

OpenRouter 最新模型周调用量排行：账单数据不会说谎，谁才是真正的王者？

01 为什么 Token 账单比基准测试排行榜更可信：三类选型误区

02 2026 年 5 月第三周：28.9 万亿 Token 与前十模型周排行

03 Token 份额 vs 美元收入：Anthropic 溢价悖论与市场三层结构

04 开发者六步：按周追踪 OpenRouter 排行并调整模型路由

05 可引用数据、信源与 CALMVPS 收束

OpenRouter 最新模型周调用量排行：
账单数据不会说谎，谁才是真正的王者？