ds4 で DeepSeek V4 をローカル推論 2026

Redis の作者 antirez（Salvatore Sanfilippo）が 2026 年に公開した ds4（DwarfStar 4） は、DeepSeek V4 Flash を Mac 上で Metal ローカル推論できるようにしました。純粋な C、自己完結型、単一モデル向けの深い最適化であり、汎用 GGUF ランタイムの上に載せる設計ではありません。コミュニティはすぐに Cursor、Claude Code、opencode などのオフライン API 連携と結びつけました。

多くの人を止めるのはコンパイルではなくユニファイドメモリです。公式パスは 96GB から（q2 量子化）、快適には 128GB の Mac または同クラスの大容量マシンを前提としています。本記事は、最先端モデルをローカルで試したいが六桁円の買い切りを避けたい開発者向けに、ハードウェア対照表、ds4 の能力境界、ds4-server 六段チェックリストを示し、CALMVPS の高メモリベアメタル Mac レンタルで推論環境をオンデマンド基盤にする方法を説明します。

01 ds4 とは：2026 年「単一モデルエンジン」が脚光を浴びた背景

ローカル推論の選択肢はすでに豊富です。llama.cpp、Ollama、MLX など複数の重みを回せます。ds4 は逆のアプローチです——DeepSeek V4 Flash（およびプロジェクトが追う同系チェックポイント）専用で、ロード、プロンプトレンダリング、Tool Calling、KV 状態（メモリとディスク）、HTTP サービス、コーディング Agent の接着を同一のネイティブ経路にまとめています。

作者の文脈：antirez は Redis と極小 C の文化で知られます。個人ブログでは ds4 を「単一モデル統合型のローカル AI 体験」への応答と位置づけています。オープン重みが十分に強く、96–128GB 級で動く量子化が揃ったとき、一つのモデルに対して end-to-end で品質を検証する価値がある、という判断です。
汎用ランタイムとの差：README は ds4 が汎用 GGUF ローダーではないこと、他ランタイムの薄いラッパーでもないことを明示しています。本番推論は Metal（macOS） または CUDA（Linux、DGX Spark など） を使い、CPU パスは正しさの照合向けです。
Agent 連携の意味：組み込みの ds4-server が OpenAI / Anthropic 互換エンドポイントを公開するため、Cursor などのクライアントはリモートまたはローカルインスタンスを「プライベートモデルプロバイダ」として扱えます。コードをパブリック API に送りたくないチームにとって構造的な変化です。

ds4 が賭けているのは「十分強い一つのオープンモデル + 十分に特化したエンジン」であり、「毎週別の 7B おもちゃ」ではありません。

リリース後はリポジトリとブログを再確認し、CLI フラグとバックエンド対応範囲を照合してください。

antirez/ds4（GitHub）

A few words on DS4（antirez.com）

02 ds4 の技術的強みと能力境界の対照

「ds4 を入れるべきか」を判断する前に、下表で強みとやらないことを切り分け、Ollama の感覚でモデルを誤配しないようにしてください。

ds4 能力マトリクス（公式 README とブログ準拠、2026-05）
観点	ds4 が提供	よくある誤解
モデル範囲	DeepSeek V4 Flash 専用パス。将来は同クラスのオープン重みへ差し替えの可能性	任意の Hugging Face GGUF を置けば動く
macOS バックエンド	Metal グラフが本番デフォルト。96GB+ ユニファイドメモリ向け	低スペック Mac が swap で全重みを耐える
量子化	非対称 2/8-bit など DS4 専用レシピ（ルーティング専門家はより攻撃的、他層は精度維持）	汎用 q4_0 ワンクリック量子化と同等
長コンテキスト	大コンテキスト対応。KV をディスクへ（`--kv-disk-dir` など）しセッション間状態を保持しやすい	毎ターン完全 prefill が必須
ツール連携	`ds4-server` + OpenAI/Anthropic 互換 API。コーディング Agent 方向の内蔵	CLI チャットのみで HTTP なし

コミュニティ実測では、128GB 級 Apple Silicon ノートで 284B 級 MoE チェックポイントがオフラインでコーディングと Tool Calling をこなした、との報告があります。token/s は手元のビルドとモデルファイルで測ってください。二次情報のベンチマーク順位をそのまま使わないでください。

03 ローカル展開のハードウェア壁：96GB は「推奨」ではなくスタートライン

ds4 の魅力はソフトが閉じている点にあります。障壁はほぼユニファイドメモリ容量です。下表は典型的な量子化ティアと調達の目安をまとめたものです（価格は地域と時期で変動します。容量計画用です）。

DeepSeek V4 + ds4 のメモリティアと参考ハード（計画用）
モデル / 量子化	ユニファイドメモリ下限	典型機種	調達の目安
V4 Flash · q2	約 96 GB	MacBook Pro M3/M4/M5 Max など	高級ノートで百万円前後から
V4 Flash · q4	約 256 GB	Mac Studio Ultra など	ワークステーション級で数百万円から
V4 PRO · q2	約 512 GB	Mac Studio M3 Ultra 最上位など	さらに上位の七桁円レンジ

公式ドキュメントは最適化グラフが Metal/CUDA 向けであることを強調し、CPU 推論を本番にしないよう促しています。macOS で CPU パスを試すと仮想メモリ関連の問題が出る場合もあります。トリアージでは正しいバックエンドで動いているかを先に確認してください。

見えないコスト：本体以外に、モデルファイルの取得と保管（数百 GB 級）、電力と冷却、メンバー全員が同スペックを買う重複 CapEx があります。
機会損失：到着前は「ローカル Agent がクラウド API を置き換えられるか」を検証できません。レンタルなら検証を時間課金に圧縮できます。
運用の痛み：ノートのスリープは長セッションを切ります。ローカル KV ディレクトリは掃除で消えます。未認証の ds4-server ポートを共有ネットワークに晒すリスクは高いです。

04 ds4 が Metal + Mac を最優先に据える理由

ds4 が他プラットフォームを軽視しているわけではありません。DeepSeek V4 のメモリと帯域の性質が Apple Silicon ユニファイドメモリ（UMA） と強く合うからです。

UMA：CPU と GPU が同じ大容量メモリを共有し、ディスクリート GPU の PCIe コピー瓶を避けます。大規模 MoE チェックポイントに効きます。
メモリ帯域：M シリーズの Max/Ultra はコンシューマ向けでも高帯域で、prefill とエキスパートルーティングに有利です。
高速 SSD + ディスク KV：ds4 は KV Cache をディスクへ書けます。macOS の NVMe と設計が重なり、長セッションや百万トークン級の実験に向きます（--ctx とディスク割当は自分で設定してください）。

Linux 側にも CUDA パス（DGX Spark などの「GPU in a box」）がありますが、Cursor など macOS ネイティブのツールチェーンを使う読者には、高メモリ Mac を借りる方が Linux 推論機 + トンネルより手間が少ないことが多いです。

05 最上位 Mac がない場合：CALMVPS で ds4-server を動かす六段手順

以下は、CALMVPS でユニファイドメモリ ≥96GB（128GB 推奨）のベアメタルリモート Mac を契約し、SSH でログインした前提です。ビルドフラグとモデルパスは ds4 リポジトリの現行 README に従ってください。

機種選定と開通：料金ページでメモリティアを満たす M シリーズ Max/Pro 以上を選びます。GGUF と KV 用に数百 GB 級のストレージ余裕を確保してください。
システム受け入れ：macOS バージョン、Xcode Command Line Tools、Metal の利用可否を確認します。ホスト名と SSH 鍵を記録し、共有ネットワークで未認証の ds4-server を晒さないでください。
ds4 ソース取得と Metal ビルド：公式リポジトリを clone し、README の macOS Metal 手順で ./ds4 と ./ds4-server を得ます。
モデルファイル準備：ds4 バージョンに合う DeepSeek V4 Flash GGUF を取得します（パスと検証は上流のリリースノート参照）。ローカル SSD の高帯域パスに置きます。
サービス起動（例の骨格）：README 推奨の ds4-server 引数でモデルパス、コンテキスト、ディスク KV を指定します。例：

ds4-server.sh

./ds4-server \
  -m /path/to/model.gguf \
  --ctx 100000 \
  --kv-disk-dir /var/ds4-kv \
  --kv-disk-space-mb 8192

Cursor / Agent クライアント接続：開発マシンから OpenAI 互換 Base URL を SSH トンネルまたは社内到達可能な ds4-server に向けます。短いタスクで Tool Calling と長コンテキストを検証してからチーム流量を開放してください。

レンタルの核心は、時間または月単位の課金、ビルドチェーンとモデルキャッシュの事前セットアップ、PRO ティアが必要なときより高メモリのインスタンスへ切替できること、全員が Mac Studio を買わず少数ノードを共有できることです。

06 引用可能な技術パラメータ、FAQ、CALMVPS への接続

公式メモリ起点：Metal パスは 96GB RAM からの MacBook 級を想定します。README は 128GB 級の「個人ハイエンド / Mac Studio」をより快適な起点として挙げています。
本番バックエンド：macOS は Metal がデフォルト、Linux は CUDA ビルド、CPU は照合と診断のみで SLA には使いません。
サービス入口：ds4-server が HTTP API を提供し、OpenAI / Anthropic クライアント生態系に接続しやすく、Cursor などへの取り込みが容易です。

FAQ 短答

32GB Mac で動きますか？ 公式の本番パスには合いません。ハードを上げるか高メモリインスタンスを借りてください。swap 任せは避けてください。
Llama 3 に差し替えられますか？ できません。汎用ランタイムを使うか、ds4 がサポートするチェックポイントの更新を待ってください。
データは外に出ますか？ 自有インスタンス上の推論なら payload はパブリック LLM API を通りません。SSH、トンネル、API Key の認証は必須です。

ds4 をよくスリープするノートに入れると、長セッションの中断とディスク KV のローカル削除が弱点です。macOS のない安価 VPS では Metal 本番パスがありません。安定した 7×24、予測可能なメモリティア、チーム共有、迅速なプロビジョニングが必要なローカル Agent 実験には、CALMVPS のマルチリージョンベアメタル Mac レンタルが適していることが多いです。Apple Silicon 専有、約 120 秒デプロイ、日/週/月で検証サイクルに合わせて契約できます。機種と料金は CALMVPS 料金ページをご確認ください。

2026年 antirez オープンソース ds4 で DeepSeek V4 をローカル推論：96GB の壁と Mac クラウドレンタルによる突破口