antirez ds4 et DeepSeek V4 en inférence locale sur Mac en 2026 :
le mur des 96 Go et la location bare metal

En 2026, le créateur de Redis antirez a publié ds4 (DwarfStar 4), un moteur C autonome pensé pour DeepSeek V4 Flash via Metal, loin des wrappers GGUF génériques. Les équipes y branchent Cursor, Claude Code ou opencode grâce à des points de terminaison compatibles OpenAI.

Le frein n’est presque jamais la compilation : c’est la mémoire unifiée. La documentation upstream fixe un plancher autour de 96 Go (q2), avec 128 Go comme base de production plus confortable. Cet article propose une matrice matérielle, les frontières de ds4, une checklist en six étapes pour ds4-server, et la manière dont la location Mac bare metal haute mémoire CALMVPS transforme un CapEx lourd en OpEx horaire maîtrisé.

01Ce qu’est ds4 et pourquoi cela compte en 2026

llama.cpp, Ollama ou MLX couvrent de nombreux checkpoints. ds4 parie l’inverse : une famille de modèles, de bout en bout — chargeurs, rendu de prompt, appels d’outils, KV en RAM et sur disque, serveur HTTP et liaison aux agents de codage dans une même pile native.

Avant le premier jeton utile, les équipes rencontrent souvent :

  • Choc CapEx : un MacBook Pro ou Studio 96 Go se situe souvent dans une fourchette d’achat à cinq ou six chiffres en USD, multipliée par siège.
  • Stockage et uplink : poids plus répertoires KV en disque — des centaines de Go ; le premier téléchargement sature les liaisons domestiques.
  • Mauvaise attente runtime : traiter ds4 comme Ollama et changer de checkpoint chaque semaine gaspille l’ingénierie.
  • Failles d’exposition : un ds4-server public sans auth devient un relais ouvert.
  • Intention de l’auteur : antirez présente ds4 comme une expérience locale mono-modèle lorsque les poids ouverts approchent la frontière et que des quants asymétriques tiennent sur des machines 96–128 Go.
  • Pas un exécuteur universel : le README exclut le chargement GGUF arbitraire ; la production doit viser Metal sous macOS ou CUDA sous Linux.
  • Angle agent : ds4-server expose des API HTTP compatibles OpenAI et Anthropic pour que l’IDE traite votre instance comme un fournisseur privé.

Recoupez commandes et backends supportés avec le dépôt officiel à chaque version.

antirez/ds4 sur GitHub

A few words on DS4 (antirez.com)

02Points forts techniques et limites non négociables

Matrice des capacités ds4 (README upstream, mai 2026)
DimensionCe que ds4 apporteErreur fréquente
Périmètre modèleChemin DeepSeek V4 Flash ; bascule possible vers le prochain meilleur checkpoint ouvertN’importe quel fichier GGUF
Backend macOSGraphe Metal par défaut en production ; matériel 96 Go+ UMAMac 32 Go avec swap massif
QuantificationRecettes asymétriques 2/8 bits propres à DS4Parité q4_0 générique en un clic
Long contexteGrand ctx ; KV disque via flags comme --kv-disk-dirPrefill complet à chaque tour
Outillageds4-server et HTTP compatible OpenAI/AnthropicChat CLI seul

Le KV disque n’est pas un détail : les agents qui conservent traces d’outils et contexte fichier entre tours évitent un re-prefill coûteux lorsqu’il est persisté sur SSD rapide avec des quotas explicites (--kv-disk-space-mb). Relisez le README à chaque release.

03Plancher matériel : 96 Go comme ligne de départ

Paliers mémoire typiques pour DeepSeek V4 et ds4 (planification)
Modèle / quantRAM unifiéeMatériel typeFourchette d’achat
V4 Flash q2~96 GoMacBook Pro M3/M4/M5 MaxPortable haut de gamme, cinq chiffres USD
V4 Flash q4~256 GoMac Studio UltraStation six chiffres USD
V4 PRO q2~512 GoMac Studio M3 Ultra maxSix à sept chiffres USD

Le README est explicite : l’inférence CPU sur macOS n’est pas un SLA de production — Metal ou CUDA constitue le chemin attendu. Le chemin CPU peut aussi déclencher des problèmes graves de mémoire virtuelle sur macOS récent : commencez par confirmer Metal, pas par augmenter le swap.

  • Stockage modèle : prévoir des centaines de Go NVMe pour poids, sidecars et répertoires KV.
  • Énergie et thermique : prefill soutenu sur puces Max/Ultra est une charge station de travail.
  • CapEx dupliqué : cinq ingénieurs × Mac 96 Go coûte plus vite qu’un hôte bare metal 128 Go partagé.

04Pourquoi Metal et Mac restent la cible principale

  • UMA : CPU et GPU partagent un grand réservoir — crucial pour d’énormes checkpoints MoE.
  • Bande passante : les niveaux Max/Ultra M-series offrent une bande passante mémoire très élevée pour le prefill et le routage d’experts.
  • SSD et KV disque : ds4 peut persister le KV sur un stockage local rapide, en phase avec les dispositions NVMe de macOS.

CUDA sous Linux (DGX Spark et assimilés) existe, mais les équipes déjà ancrées dans l’écosystème macOS préfèrent souvent louer un Mac haute mémoire plutôt que monter un second maillon d’inférence Linux.

Achat vs location pour une preuve ds4
ApprocheForceFaiblesse pour ds4
Acheter un Mac 96 GoFaible latence à domicileCapEx élevé ; veille casse les agents 7×24
VM GPU génériqueÉlasticitéPas de chemin Metal production pour ds4
Location CALMVPS bare metalPalier UMA prévisible ; partage d’équipe ; ~120 sDiscipline SSH/tunnel requise

05Six étapes pour faire tourner ds4-server sur un Mac bare metal CALMVPS

Prérequis : accès SSH à un Mac bare metal CALMVPS avec mémoire unifiée suffisante et NVMe libre. Recoupez chaque commande avec le README de la révision ds4 que vous compilez.

  1. Choisir le palier RAM : sur la page tarifs location, commandez une mémoire unifiée d’au moins 96 Go (128 Go recommandé) et réservez des centaines de Go pour poids et KV. Estimez les sessions agent simultanées — chacune grossit KV et traces d’outils.
  2. Valider l’hôte : version macOS, Xcode CLT, Metal disponible ; durcir SSH ; ne jamais exposer un ds4-server non authentifié sur Internet public.
  3. Compiler ds4 pour Metal : cloner le dépôt officiel et compiler selon le README pour les cibles Metal macOS.
  4. Stager le GGUF : télécharger le fichier DeepSeek V4 Flash aligné sur votre révision ds4 ; le placer sur SSD local rapide.
  5. Démarrer le serveur : suivre les flags README pour chemin modèle, contexte et KV disque — par exemple :
ds4-server.sh
./ds4-server \
  -m /path/to/model.gguf \
  --ctx 100000 \
  --kv-disk-dir /var/ds4-kv \
  --kv-disk-space-mb 8192
  1. Pointer l’IDE : définir l’URL de base compatible OpenAI via tunnel SSH ou réseau privé ; valider le tool calling avant déploiement équipe.
  • Exécuter ds4-server sous un utilisateur dédié avec rotation des logs sur le répertoire KV.
  • Épingler les empreintes de fichiers modèle dans un runbook interne.
  • Limiter l’accès HTTP via ssh -L ou Tailscale ; faire tourner les clés API des clients type Cursor.

06Références citables, FAQ et quand CALMVPS l’emporte

  • Plancher RAM documenté : chemin Metal visant du matériel type MacBook à partir de 96 Go ; 128 Go plus confortable selon l’upstream.
  • Backends production : Metal sur macOS ; CUDA sur Linux ; CPU pour diagnostic uniquement.
  • Entrée service : HTTP ds4-server avec compatibilité clients OpenAI/Anthropic.
  • Flags contexte/KV : exemples README avec grand --ctx et KV disque — quotas = planification de capacité.

FAQ : Mac 32 Go ? Hors chemin documenté. Llama 3 ? Non. Risque zéro ? Payload local, mais durcissez SSH, tunnels et clés.

Les API publiques simplifient le budget mais envoient le code hors site ; la gouvernance des journaux d’outils devient un projet à part entière. ds4 sur bare metal rend le contrôle — contre de la RAM à financer. La location transforme cela en sprint annulable, idéal avant d’amortir un Mac Studio.

Faire tourner ds4 sur un portable qui dort interrompt les longues sessions KV. Un VPS Linux économique sans Metal rate le chemin production. Pour des essais d’agents locaux stables 7×24, des paliers RAM prévisibles et un partage d’équipe, la location Mac bare metal multirégionale CALMVPS est en général le meilleur compromis : Apple Silicon dédié, livraison en environ 120 secondes, durées journalières ou mensuelles flexibles. Consultez les tarifs CALMVPS et commandez un Mac mini M4 lorsque le palier mémoire est validé.