當 MMLU、HumanEval 榜單每週刷新「最強模型」時,真正在生產環境的開發者卻在另一張表上投票——OpenRouter 按週(7 天滾動)統計的 Token 呼叫量。花出去的錢和跑出去的 Token 不會說謊:它衡量的是真實落地與市場認可度,而非實驗室裡的單次跑分。
本文面向在 Mac 上編排 OpenClaw、Cursor、Claude Code 等 Agent 的開發者與技術負責人,基於 2026 年 5 月 18–24 日 最新一週公開資料(統計截止日以 OpenRouter 官網為準),解讀 28.9 兆 Token 週呼叫格局、前十模型榜單、DeepSeek 矩陣稱霸、Anthropic 溢價悖論,並給出六步按週追蹤與路由調整清單。讀完應能回答:該信 Benchmark 還是信帳單、中美模型份額如何分化、以及 Agent 預設模型該如何按週迭代。
01 為什麼 Token 帳單比基準測試排行榜更可信:三類選型誤區
OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一:接入 300+ 模型、覆蓋 60+ 供應商,開發者透過統一介面呼叫 OpenAI、Anthropic、Google、DeepSeek 等模型。其 Rankings 頁面按週 Token 吞吐量(輸入 + 輸出)排序,資料每週更新,免費公開檢視。
- Benchmark 與生產脫節:榜單常測單次推理極限能力,但 Agent 工作流更依賴穩定性、工具呼叫成功率、API 延遲與單價。OpenRouter 與 a16z 聯合發布的《2025 AI 使用報告》(基於約 100 兆 Token 匿名元資料)指出:模型的基準測試分數與其實際市場份額幾乎呈反比——開發者更在意推理成本,程式設計類任務佔比已從 2025 年初約 11% 升至超 50%,成為最大單一用途。
- 發表會敘事 vs 錢包投票:廠商 Keynote 強調「最強」,但 OpenRouter 週榜反映的是全球開發者持續付費呼叫的結果。一年前平台週處理量約 2.4 兆 Token,至 2026 年 5 月下旬已達 28.9 兆,約 12 倍成長——AI 應用已進入規模化爆發,帳單增速比任何評測更能說明趨勢。
- 只看模型不看矩陣:單一型號排名會掩蓋廠商策略。DeepSeek 同時讓 V4-Flash、V4-Pro、V3.2 三款進入當週前十,系列合計週呼叫約 5.74 兆 Token——比任何單一競品都更接近「生態位統治」,而非偶然爆款。
核心論點:Token 呼叫量是衡量 AI 真實落地與市場認可度的體溫計;在 Agent 與批次處理主導的時代,週帳單比 MMLU 分數更能指導你的預設路由。
官方排行榜與統計口徑說明請造訪以下頁面(發版後請再次開啟連結核對最新數值):
02 2026 年 5 月第三週:28.9 兆 Token 與前十模型週排行
統計週期:2026 年 5 月 18 日–5 月 24 日(OpenRouter 按週 7 天滾動口徑)。全球 AI 模型週 API 呼叫總量 28.9 兆 Token,環比 +7.4%,連續第五週上漲。
| 指標 | 數值 | 環比 | 解讀 |
|---|---|---|---|
| 全球週 Token 總量 | 28.9 兆 | +7.4% | 連續五週上漲,需求持續釋放 |
| 中國模型週呼叫量 | 9.223 兆 | +19.89% | 連續四週超越美國模型 |
| 美國模型週呼叫量 | 4.93 兆 | +16.27% | 增速可觀但份額被反超 |
| 中國模型流量佔比 | 約 45%+ | — | 2025 年初不足 2%,兩年格局重塑 |
當週模型維度 Top 10(按週 Token 量,交叉參照 OpenRouter 公開榜單與公開報導;個別條目為推算或二手整理,使用前請以官網為準):
| 排名 | 模型 | 廠商 | 週 Token 量 | 特點 |
|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(中國) | 3.43T(+66%) | Agent 工作流首選,極低單價 |
| 2 | 騰訊 Hy3 Preview | Tencent(中國) | 3.07T(+16%) | 限免結束後仍高成長 |
| 3 | Claude Sonnet 4.6 | Anthropic(美國) | 1.35T | 百萬上下文,企業程式設計主力 |
| 4 | DeepSeek-V3.2 | DeepSeek(中國) | 1.31T | 低價長尾,角色扮演活躍 |
| 5 | Owl Alpha | OpenRouter | 1.15T(+29%) | 免費 Agent 特化,百萬上下文 |
| 6 | Gemini 3 Flash Preview | Google(美國) | 1.06T | 多模態,學術/醫療場景 |
| 7 | DeepSeek-V4-Pro | DeepSeek(中國) | 1.00T | 矩陣旗艦(系列合計約 5.74T) |
| 8 | MiniMax M2.7 | MiniMax(中國) | 806B | 長上下文性價比 |
| 9 | Grok 4.1 Fast | xAI(美國) | 721B | 2M 上下文,法律場景 |
| 10 | Step 3.5 Flash | StepFun(中國) | 673B | 快速低價,批次處理 |
DeepSeek 多模型矩陣:三款型號同時進入前十,系列週呼叫合計約 5.74 兆 Token(環比約 +25.9%),連續兩週在廠商維度超越 Anthropic 與 Google。前十中中國模型佔半數以上,與 2025 年初中國流量佔比不足 2% 相比,全球呼叫格局已被極低成本開源路線重塑。
註:Kimi K2.6 前一週曾排名第 6,當週跌出前十;V4-Pro 週量部分報導為系列總量減去 Flash 與 V3.2 的推算值。閱讀本文時若已過數週,請以上述 Rankings 頁面即時資料為準。
03 Token 份額 vs 美元收入:Anthropic 溢價悖論與市場三層結構
週呼叫量回答「誰被用得最多」,美元收入份額回答「誰賺得最多」——兩張表疊在一起,才能看清 AI 商業化的真實分層。
| 廠商/層級 | Token 份額趨勢 | 美元收入特徵 | 典型場景 |
|---|---|---|---|
| Anthropic Claude | 約 12%(一年前約 25%) | 美元收入份額約 46% | 企業複雜推理,付費能力強 |
| Google Gemini Flash | 中等流量 | 中等單價 | 多模態、學術與醫療 |
| DeepSeek / 騰訊 / MiniMax / StepFun | 高流量、快速成長 | 極低價驅動 | Agent、程式設計、批次處理流水線 |
Anthropic 溢價悖論:Claude Opus 4.6 等旗艦月收入可達約 2500 萬美元量級(公開財經與平台觀察口徑),但 Token 吞吐量僅為 DeepSeek 系列的零頭。企業客戶仍為高品質推理付高價,流量主導權卻已向中國極低價模型傾斜——這正是「帳單不會說謊」的第二層含義:市場在用錢包同時購買「能力溢價」與「規模性價比」,而非非此即彼。
市場三層結構:[高價值·低流量] Anthropic Opus → 複雜推理;[性價比·中流量] Gemini Flash → 多模態;[極低價·高流量] DeepSeek 矩陣 → Agent 與批次處理。你的預設路由應落在明確一層,而非混用導致成本失控。
對投資人,OpenRouter 週榜已成為評估 AI 商業化進度的視窗(平台估值曾出現約 26x PS 量級討論);對開發者,它是「不押寶單一廠商」時的中立溫度計;對研究機構,它是追蹤中美模型份額最直觀的公開序列之一。
04 開發者六步:按週追蹤 OpenRouter 排行並調整模型路由
- 固定每週一核對 Rankings:開啟 OpenRouter Rankings,記錄全球週總量、前十變動與環比箭頭;將截圖或 CSV 存入團隊 Wiki,避免憑記憶選型。
- 拆分 Token 與美元兩欄帳本:在 OpenRouter Dashboard 或自有計費系統,分別統計各模型週 Token 量與週美元支出;若某模型 Token 佔比高但業務價值低,優先降級為備用路由。
- 按場景映射三層結構:Agent/批次處理預設 DeepSeek-V4-Flash 等極低價型號;企業級複雜推理保留 Claude Sonnet/Opus;多模態鏈路用 Gemini Flash;避免全棧綁死單一榜單第一名。
- 關注新進前十的「先兆模型」:如 Hy3 Preview、Owl Alpha 等短期內衝榜型號,往往在限免結束或 Agent 特化上線後仍保持高增速——適合作為 A/B 路由的候選,而非立即全量切換。
- 在 Mac Gateway 層做可熱切換路由:OpenClaw、Cursor、Claude Code 等應將模型 ID 寫在環境變數或設定檔,而非硬編碼進 Skill;Gateway 所在 macOS 主機需 7×24 線上,筆電合蓋會導致 Agent 與路由策略同時失聯。
- 每月複盤一次「Benchmark vs 帳單」偏差:對照團隊最關心的 SWE-bench 類指標與 OpenRouter 週份額,若高分模型帳單佔比持續偏低,說明生產環境更在意成本與延遲——應信任帳單而非媒體標題。
OPENROUTER_DEFAULT_MODEL=deepseek/deepseek-v4-flash
OPENROUTER_FALLBACK_MODEL=anthropic/claude-sonnet-4.6
OPENROUTER_WEEKLY_REVIEW_CRON=0 9 * * 1
curl -s https://openrouter.ai/api/v1/models | jq '.data[].id' | head
05 可引用資料、信源與 CALMVPS 收束
- 統計週期:本文核心資料基於 OpenRouter 按週(7 天滾動)口徑,快照截止 2026 年 5 月 24 日;全球週呼叫 28.9 兆 Token,環比 +7.4%。
- DeepSeek-V4-Flash:當週約 3.43 兆 Token,環比約 +66%,位居模型週榜第一(多家財經媒體引用 OpenRouter/Bloomberg 口徑)。
- 中美對比:中國模型週呼叫 9.223 兆(+19.89%)vs 美國 4.93 兆(+16.27%),中國連續四週第一。
- DeepSeek 系列合計:約 5.74 兆 Token/週,環比約 +25.9%,廠商維度領先 Anthropic 與 Google。
- a16z × OpenRouter 報告:程式設計任務佔比超 50%;基準分數與市場份額呈反比趨勢(報告發布於 2025 年,引用時請以原文為準)。
OpenRouter 週榜揭示的真相很直白:不是誰最聰明,而是誰最被呼叫,才能推動 AI 真正落地。中國開源模型以極低成本拿走全球流量主導權,Anthropic 仍以高價守住企業利潤池——開發者若只追 Benchmark,很容易在 Agent 帳單上兩週內失控。
把模型路由跑在 Mac 上時,常見替代方案的短板同樣清晰:筆電合蓋休眠導致 Gateway 斷連;Linux VPS 無法執行原生 macOS Agent 工具鏈;虛擬機 Mac 在 Metal 與 Xcode 路徑上常有效能損耗。對需要 7×24 穩定線上、按月彈性擴縮 的 Agent 控制面與 CI 節點,CALMVPS 裸金屬 Mac 租用 提供獨占 Apple Silicon、約 120 秒交付與日/週/月計費,讓你在信任週帳單選模型的同時,把 OpenClaw/Cursor 編排層放在不會休眠的生產級 macOS 上。機型與價格見 租用價格頁,遠端接入見 雲端幫助中心,下單見 雲端訂購。