2026 年 antirez 开源 ds4 本地跑 DeepSeek V4:
96GB 硬件门槛与 Mac 云端租赁按需破局指南

Redis 作者 antirez(Salvatore Sanfilippo)在 2026 年开源的 ds4(DwarfStar 4),把 DeepSeek V4 Flash 的本地 Metal 推理推到台前:纯 C、自包含、面向单模型深度优化,而不是再套一层通用 GGUF 运行时。社区很快把它和 Cursor、Claude Code、opencode 等工具的离线 API 对接联系在一起。

真正挡住大多数人的不是编译,而是统一内存:官方路径以 96GB 起(q2 量化)128GB 更稳妥 的 Mac 或同类「大内存盒子」为前提。本文面向想体验本地前沿模型、却不想一次性投入十几万购机的开发者,给出硬件对照表、ds4 能力边界、六步 ds4-server 验收清单,并说明如何用 CALMVPS 高内存裸金属 Mac 租赁 把顶配推理环境变成按需基础设施。

01 ds4 是什么:2026 年「单模型引擎」为何突然刷屏

本地推理赛道并不缺引擎:llama.cpp、Ollama、MLX 等都能跑多种权重。ds4 走的是相反路线——只为 DeepSeek V4 Flash(及项目演进中的同族检查点)服务,把加载、提示词渲染、Tool Calling、KV 状态(内存与磁盘)、HTTP 服务与编码 Agent 胶水写进同一套原生路径。

  • 作者背景:antirez 以 Redis 与极简 C 工程文化闻名;他在个人博文里将 ds4 描述为「单模型集成式本地 AI 体验」的回应——当开放权重模型足够接近前沿、且量化配方能在 96–128GB 机器上跑得动时,值得为一个模型做端到端质量验证。
  • 与通用运行时的差异:README 明确 ds4 不是 通用 GGUF 加载器,也不是 对其它运行时的薄封装;生产推理应走 Metal(macOS)CUDA(Linux,含 DGX Spark 等),CPU 路径主要用于正确性对照。
  • Agent 集成的意义:内置 ds4-server 暴露 OpenAI / Anthropic 兼容端点,使 Cursor 等客户端可把远端或本机实例当作「私有模型供应商」——这对不想把代码发给公有 API 的团队是结构性变化。

ds4 赌的是「一个足够强的开放模型 + 足够专一的引擎」,而不是「每周换一个 7B 玩具模型」。

项目主页与作者说明请以仓库与博文为准;发版后请再次打开链接核对命令行参数与后端支持范围。

antirez/ds4(GitHub)

A few words on DS4(antirez.com)

02 ds4 技术亮点与能力边界对照

在评估「要不要上 ds4」之前,建议用下表区分项目强项明确不做的部分,避免用 Ollama 心智误配模型。

ds4 能力矩阵(以官方 README 与博文为准,2026-05)
维度 ds4 提供 常见误区
模型范围 DeepSeek V4 Flash 专用路径;未来可能换同档开放权重检查点 任意 Hugging Face GGUF 拖进来就能跑
macOS 后端 Metal 图为默认生产路径;面向 96GB+ 统一内存机型 低配 Mac 靠 swap 硬扛全量权重
量化策略 非对称 2/8-bit 等 DS4 专用配方(路由专家更激进、其余层保精度) 与通用 q4_0 一键量化等价
长上下文 支持大上下文;KV 可落盘(--kv-disk-dir 等),利于会话间保留状态 每次对话必须完整 prefill
工具链集成 ds4-server + OpenAI/Anthropic 兼容 API;内置编码 Agent 方向 仅 CLI 聊天、无 HTTP 服务

社区实测文章提到:在 128GB 级 Apple Silicon 笔记本上,284B 级 MoE 检查点可在离线条件下完成编码与 Tool Calling 任务——具体 token/s 请以你本机构建版本与模型文件为准,勿照搬二手 benchmark 排名。

03 本地部署硬件门槛:96GB 不是「建议」,而是起跑线

ds4 的诱人之处在于软件已闭环;拦路虎几乎全是统一内存容量。下表汇总常见量化档位与参考购置场景(市价随地区与时间波动,仅供容量规划)。

DeepSeek V4 + ds4 典型内存档位与参考硬件(规划用)
模型 / 量化 统一内存下限 典型机型 参考购置量级
V4 Flash · q2 约 96 GB MacBook Pro M3/M4/M5 Max 等 高端笔记本五位数(人民币)起
V4 Flash · q4 约 256 GB Mac Studio Ultra 等 工作站级六位数(人民币)起
V4 PRO · q2 约 512 GB Mac Studio M3 Ultra 顶配等 六至七位数(人民币)量级

官方文档强调:优化图路径以 Metal/CUDA 为目标,不要把 CPU 推理当作生产方案;在 macOS 上尝试 CPU 路径还可能触发与虚拟内存相关的系统问题——排障时应优先确认你是否在正确的后端上运行。

  • 隐性成本:除机器外,还有模型文件下载与存储(数百 GB 级)、电力与散热、以及团队多人各自买一台的重复 CapEx。
  • 机会成本:机器到货前无法验证「本地 Agent 是否真能替代云端 API」;租赁可把验证周期压到按小时计费。

04 为什么 ds4 把 Metal + Mac 放在第一优先级

ds4 并非「歧视」其它平台,而是 DeepSeek V4 的内存与带宽特征与 Apple Silicon 统一内存(UMA) 高度契合:

  • UMA:CPU 与 GPU 共享同一块大容量内存,避免离散显卡上的 PCIe 拷贝瓶颈,对大 MoE 检查点至关重要。
  • 内存带宽:M 系列 Max/Ultra 档位提供消费级中极高的带宽,利于 prefill 与专家路由。
  • 高速 SSD + 磁盘 KV:ds4 可将 KV Cache 落盘;macOS 上 NVMe 与项目设计叠加,有利于长会话与百万级上下文实验(仍以你设置的 --ctx 与磁盘配额为准)。

Linux 侧亦有 CUDA 路径(含 DGX Spark 等「GPU in a box」),但多数读者若已在使用 Cursor 等 macOS 原生工具链,租一台高内存 Mac 往往比另搭 Linux 推理机再拉隧道更省事

05 没有顶配 Mac 怎么办:CALMVPS 上跑 ds4-server 的六步清单

下列步骤假设你已在 CALMVPS 订购统一内存 ≥96GB(建议 128GB) 的裸金属远程 Mac,并通过 SSH 登录。具体编译标志与模型路径以 ds4 仓库当前 README 为准。

  1. 选型与开通:定价页 选择满足内存档位的 M 系列 Max/Pro 或更高配置;确认存储足以容纳 GGUF 与 KV 目录(建议预留数百 GB)。
  2. 系统验收:确认 macOS 版本、Xcode Command Line Tools、Metal 可用;记录主机名与 SSH 密钥,避免在共享网络下暴露未鉴权的 ds4-server 端口。
  3. 获取 ds4 源码并编译 Metal 目标:克隆官方仓库,按 README 执行 macOS Metal 构建,得到 ./ds4./ds4-server 二进制。
  4. 准备模型文件:下载与 ds4 版本匹配的 DeepSeek V4 Flash GGUF(路径与校验方式见上游发布说明);将文件放在本地 SSD 高带宽路径。
  5. 启动服务(示例骨架):使用 README 推荐的 ds4-server 参数,指定模型路径、上下文长度与磁盘 KV 目录,例如:
ds4-server.sh
./ds4-server \
  -m /path/to/model.gguf \
  --ctx 100000 \
  --kv-disk-dir /var/ds4-kv \
  --kv-disk-space-mb 8192
  1. 对接 Cursor / Agent 客户端:在开发机上将 OpenAI 兼容 Base URL 指向经 SSH 隧道或内网可达的 ds4-server 端点;用短任务验证 Tool Calling 与长上下文会话,再逐步放开团队流量。

租赁场景的核心收益:按小时或按月付费、环境可预装编译链与模型缓存、需要 PRO 档位时切换更高内存实例而无需重新购机,团队可共享少数几台高内存节点而非人均一台 Mac Studio。

06 可引用技术参数、FAQ 与 CALMVPS 转化场景

  • 官方内存起点:Metal 路径面向 96GB RAM 起 的 MacBook 级设备;README 亦提到 128GB 级「个人高端机 / Mac Studio」作为更舒适的本地推理起点。
  • 生产后端:macOS 默认 Metal;CUDA 构建用于 Linux;CPU 仅用于对照与诊断,不作为 SLA 路径。
  • 服务化入口:ds4-server 提供 HTTP API,兼容 OpenAI / Anthropic 客户端生态,便于接入 Cursor 等工具。

FAQ 速答

  • 能否用 32GB Mac 跑? 不符合官方生产路径;应升级硬件或租用高内存实例,而非期待 swap 救场。
  • 能否换成 Llama 3? 不能;请选用通用运行时,或等待 ds4 上游更换支持的检查点。
  • 数据是否出网? 在自有实例上推理时,payload 不经过公有 LLM API;仍需做好 SSH、隧道与 API Key 鉴权。

把 ds4 塞进经常合盖睡眠的笔记本,短板是长会话中断与磁盘 KV 目录随本地清理丢失;塞进无 macOS 的廉价 VPS 又无法走 Metal 生产路径。对需要稳定 7×24、可预期内存档位、团队共享与快速交付的本地 Agent 实验,CALMVPS 多区域裸金属 Mac 租赁 通常是更优解:独占 Apple Silicon、约 120 秒交付,日/周/月租可按验证周期弹性下单。机型与价格见 CALMVPS 定价页