2026 年 antirez 開源 ds4 本機跑 DeepSeek V4:
96GB 硬體門檻與 Mac 雲端租用按需破局指南

Redis 作者 antirez(Salvatore Sanfilippo)在 2026 年開源的 ds4(DwarfStar 4),把 DeepSeek V4 Flash 的本機 Metal 推論推到檯面上:純 C、自包含、針對單一模型深度最佳化,而不是再包一層通用 GGUF 執行環境。社群很快把它和 Cursor、Claude Code、opencode 等工具的離線 API 對接聯想在一起。

真正擋住多數人的不是編譯,而是統一記憶體:官方路徑以 96GB 起(q2 量化)128GB 較穩 的 Mac 或同類「大記憶體主機」為前提。本文面向想體驗本機前沿模型、卻不想一次砸下六位數購機的開發者,整理硬體對照表、ds4 能力邊界、六步 ds4-server 驗收清單,並說明如何用 CALMVPS 高記憶體裸金屬 Mac 租用 把頂規推論環境變成按需基礎建設。

01 ds4 是什麼:2026 年「單模型引擎」為何突然走紅

本機推論賽道並不缺引擎:llama.cpp、Ollama、MLX 等都能跑多種權重。ds4 走的是相反路線——只服務 DeepSeek V4 Flash(及專案演進中的同族檢查點),把載入、提示詞渲染、Tool Calling、KV 狀態(記憶體與磁碟)、HTTP 服務與編碼 Agent 膠水寫進同一套原生路徑。

  • 作者背景:antirez 以 Redis 與極簡 C 工程文化聞名;他在個人部落格將 ds4 描述為「單模型整合式本機 AI 體驗」的回應——當開放權重模型夠接近前沿、且量化配方能在 96–128GB 機器上跑得動時,值得為一個模型做端到端品質驗證。
  • 與通用執行環境的差異:README 明確 ds4 不是 通用 GGUF 載入器,也不是 對其它執行環境的薄封裝;正式推論應走 Metal(macOS)CUDA(Linux,含 DGX Spark 等),CPU 路徑主要用於正確性對照。
  • Agent 整合的意義:內建 ds4-server 暴露 OpenAI / Anthropic 相容端點,讓 Cursor 等用戶端可把遠端或本機實例當作「私有模型供應商」——對不想把程式碼送進公有 API 的團隊是結構性改變。

ds4 賭的是「一個夠強的開放模型 + 夠專一的引擎」,而不是「每週換一個 7B 玩具模型」。

專案首頁與作者說明請以倉庫與部落格為準;發版後請再次開啟連結核對命令列參數與後端支援範圍。

antirez/ds4(GitHub)

A few words on DS4(antirez.com)

02 ds4 技術亮點與能力邊界對照

在評估「要不要上 ds4」之前,建議用下表區分專案強項明確不做的部分,避免用 Ollama 心智誤配模型。

ds4 能力矩陣(以官方 README 與部落文為準,2026-05)
維度 ds4 提供 常見誤解
模型範圍 DeepSeek V4 Flash 專用路徑;未來可能換同檔開放權重檢查點 任意 Hugging Face GGUF 拖進來就能跑
macOS 後端 Metal 圖為預設正式路徑;面向 96GB+ 統一記憶體機型 低配 Mac 靠 swap 硬扛全量權重
量化策略 非對稱 2/8-bit 等 DS4 專用配方(路由專家更激進、其餘層保精度) 與通用 q4_0 一鍵量化等價
長上下文 支援大上下文;KV 可落碟(--kv-disk-dir 等),利於工作階段間保留狀態 每次對話必須完整 prefill
工具鏈整合 ds4-server + OpenAI/Anthropic 相容 API;內建編碼 Agent 方向 僅 CLI 聊天、無 HTTP 服務

社群實測提到:在 128GB 級 Apple Silicon 筆電上,284B 級 MoE 檢查點可在離線條件下完成編碼與 Tool Calling 任務——具體 token/s 請以你本機建置版本與模型檔為準,勿照搬二手 benchmark 排名。

03 本機部署硬體門檻:96GB 不是「建議」,而是起跑線

ds4 的誘人之處在於軟體已閉環;攔路虎幾乎全是統一記憶體容量。下表彙總常見量化檔位與參考採購情境(市價隨地區與時間波動,僅供容量規劃)。

DeepSeek V4 + ds4 典型記憶體檔位與參考硬體(規劃用)
模型 / 量化 統一記憶體下限 典型機型 參考採購量級
V4 Flash · q2 約 96 GB MacBook Pro M3/M4/M5 Max 等 高階筆電六位數(新台幣)起
V4 Flash · q4 約 256 GB Mac Studio Ultra 等 工作站級七位數(新台幣)起
V4 PRO · q2 約 512 GB Mac Studio M3 Ultra 頂規等 七至八位數(新台幣)量級

官方文件強調:最佳化圖路徑以 Metal/CUDA 為目標,不要把 CPU 推論當正式方案;在 macOS 上嘗試 CPU 路徑還可能觸發與虛擬記憶體相關的系統問題——除錯時應優先確認你是否在正確的後端上執行。

  • 隱性成本:除機器外,還有模型檔下載與儲存(數百 GB 級)、電力與散熱、以及團隊多人各自買一台的重複 CapEx。
  • 機會成本:機器到貨前無法驗證「本機 Agent 是否真能取代雲端 API」;租用可把驗證週期壓到按小時計費。
  • 維運痛點:筆電合蓋睡眠會中斷長工作階段;本機磁碟 KV 目錄隨清理而遺失;未鑑權的 ds4-server 埠暴露在共用網路風險極高。

04 為什麼 ds4 把 Metal + Mac 放在第一優先順序

ds4 並非「歧視」其它平台,而是 DeepSeek V4 的記憶體與頻寬特徵與 Apple Silicon 統一記憶體(UMA) 高度契合:

  • UMA:CPU 與 GPU 共享同一塊大容量記憶體,避免獨立顯卡上的 PCIe 拷貝瓶頸,對大 MoE 檢查點至關重要。
  • 記憶體頻寬:M 系列 Max/Ultra 檔位提供消費級中極高的頻寬,有利 prefill 與專家路由。
  • 高速 SSD + 磁碟 KV:ds4 可將 KV Cache 落碟;macOS 上 NVMe 與專案設計疊加,有利長工作階段與百萬級上下文實驗(仍以你設定的 --ctx 與磁碟配額為準)。

Linux 側亦有 CUDA 路徑(含 DGX Spark 等「GPU in a box」),但多數讀者若已在使用 Cursor 等 macOS 原生工具鏈,租一台高記憶體 Mac 往往比另搭 Linux 推論機再拉隧道更省事

05 沒有頂規 Mac 怎麼辦:在 CALMVPS 上跑 ds4-server 的六步清單

下列步驟假設你已在 CALMVPS 訂購統一記憶體 ≥96GB(建議 128GB) 的裸金屬遠端 Mac,並透過 SSH 登入。具體編譯旗標與模型路徑以 ds4 倉庫當前 README 為準。

  1. 選型與開通:定價頁 選擇滿足記憶體檔位的 M 系列 Max/Pro 或更高規格;確認儲存空間足以容納 GGUF 與 KV 目錄(建議預留數百 GB)。
  2. 系統驗收:確認 macOS 版本、Xcode Command Line Tools、Metal 可用;記錄主機名稱與 SSH 金鑰,避免在共用網路下暴露未鑑權的 ds4-server 埠。
  3. 取得 ds4 原始碼並編譯 Metal 目標:clone 官方倉庫,依 README 執行 macOS Metal 建置,得到 ./ds4./ds4-server 執行檔。
  4. 準備模型檔:下載與 ds4 版本相符的 DeepSeek V4 Flash GGUF(路徑與校驗方式見上游發布說明);將檔案放在本機 SSD 高頻寬路徑。
  5. 啟動服務(範例骨架):使用 README 建議的 ds4-server 參數,指定模型路徑、上下文長度與磁碟 KV 目錄,例如:
ds4-server.sh
./ds4-server \
  -m /path/to/model.gguf \
  --ctx 100000 \
  --kv-disk-dir /var/ds4-kv \
  --kv-disk-space-mb 8192
  1. 對接 Cursor / Agent 用戶端:在開發機上將 OpenAI 相容 Base URL 指向經 SSH 隧道或內網可達的 ds4-server 端點;用短任務驗證 Tool Calling 與長上下文工作階段,再逐步放開團隊流量。

租用場景的核心效益:按小時或按月付費、環境可預裝編譯鏈與模型快取、需要 PRO 檔位時切換更高記憶體實例而無需重新購機,團隊可共享少數幾台高記憶體節點而非人均一台 Mac Studio。

06 可引用技術參數、FAQ 與 CALMVPS 轉化場景

  • 官方記憶體起點:Metal 路徑面向 96GB RAM 起 的 MacBook 級裝置;README 亦提到 128GB 級「個人高階機 / Mac Studio」作為更舒適的本機推論起點。
  • 正式後端:macOS 預設 Metal;CUDA 建置用於 Linux;CPU 僅用於對照與診斷,不作 SLA 路徑。
  • 服務化入口:ds4-server 提供 HTTP API,相容 OpenAI / Anthropic 用戶端生態,便於接入 Cursor 等工具。

FAQ 速答

  • 能否用 32GB Mac 跑? 不符合官方正式路徑;應升級硬體或租用高記憶體實例,而非期待 swap 救場。
  • 能否換成 Llama 3? 不能;請選用通用執行環境,或等待 ds4 上游更換支援的檢查點。
  • 資料是否出網? 在自有實例上推論時,payload 不經過公有 LLM API;仍需做好 SSH、隧道與 API Key 鑑權。

把 ds4 塞進經常合蓋睡眠的筆電,短板是長工作階段中斷與磁碟 KV 目錄隨本機清理遺失;塞進沒有 macOS 的廉價 VPS 又無法走 Metal 正式路徑。對需要穩定 7×24、可預期記憶體檔位、團隊共享與快速交付的本機 Agent 實驗,CALMVPS 多區域裸金屬 Mac 租用 通常是更優解:獨占 Apple Silicon、約 120 秒交付,日/週/月租可按驗證週期彈性下單。機型與價格見 CALMVPS 定價頁