En 2026, le créateur de Redis antirez a publié ds4 (DwarfStar 4), un moteur C autonome pensé pour DeepSeek V4 Flash via Metal, loin des wrappers GGUF génériques. Les équipes y branchent Cursor, Claude Code ou opencode grâce à des points de terminaison compatibles OpenAI.
Le frein n’est presque jamais la compilation : c’est la mémoire unifiée. La documentation upstream fixe un plancher autour de 96 Go (q2), avec 128 Go comme base de production plus confortable. Cet article propose une matrice matérielle, les frontières de ds4, une checklist en six étapes pour ds4-server, et la manière dont la location Mac bare metal haute mémoire CALMVPS transforme un CapEx lourd en OpEx horaire maîtrisé.
01Ce qu’est ds4 et pourquoi cela compte en 2026
llama.cpp, Ollama ou MLX couvrent de nombreux checkpoints. ds4 parie l’inverse : une famille de modèles, de bout en bout — chargeurs, rendu de prompt, appels d’outils, KV en RAM et sur disque, serveur HTTP et liaison aux agents de codage dans une même pile native.
Avant le premier jeton utile, les équipes rencontrent souvent :
- Choc CapEx : un MacBook Pro ou Studio 96 Go se situe souvent dans une fourchette d’achat à cinq ou six chiffres en USD, multipliée par siège.
- Stockage et uplink : poids plus répertoires KV en disque — des centaines de Go ; le premier téléchargement sature les liaisons domestiques.
- Mauvaise attente runtime : traiter ds4 comme Ollama et changer de checkpoint chaque semaine gaspille l’ingénierie.
- Failles d’exposition : un
ds4-serverpublic sans auth devient un relais ouvert.
- Intention de l’auteur : antirez présente ds4 comme une expérience locale mono-modèle lorsque les poids ouverts approchent la frontière et que des quants asymétriques tiennent sur des machines 96–128 Go.
- Pas un exécuteur universel : le README exclut le chargement GGUF arbitraire ; la production doit viser Metal sous macOS ou CUDA sous Linux.
- Angle agent :
ds4-serverexpose des API HTTP compatibles OpenAI et Anthropic pour que l’IDE traite votre instance comme un fournisseur privé.
Recoupez commandes et backends supportés avec le dépôt officiel à chaque version.
02Points forts techniques et limites non négociables
| Dimension | Ce que ds4 apporte | Erreur fréquente |
|---|---|---|
| Périmètre modèle | Chemin DeepSeek V4 Flash ; bascule possible vers le prochain meilleur checkpoint ouvert | N’importe quel fichier GGUF |
| Backend macOS | Graphe Metal par défaut en production ; matériel 96 Go+ UMA | Mac 32 Go avec swap massif |
| Quantification | Recettes asymétriques 2/8 bits propres à DS4 | Parité q4_0 générique en un clic |
| Long contexte | Grand ctx ; KV disque via flags comme --kv-disk-dir | Prefill complet à chaque tour |
| Outillage | ds4-server et HTTP compatible OpenAI/Anthropic | Chat CLI seul |
Le KV disque n’est pas un détail : les agents qui conservent traces d’outils et contexte fichier entre tours évitent un re-prefill coûteux lorsqu’il est persisté sur SSD rapide avec des quotas explicites (--kv-disk-space-mb). Relisez le README à chaque release.
03Plancher matériel : 96 Go comme ligne de départ
| Modèle / quant | RAM unifiée | Matériel type | Fourchette d’achat |
|---|---|---|---|
| V4 Flash q2 | ~96 Go | MacBook Pro M3/M4/M5 Max | Portable haut de gamme, cinq chiffres USD |
| V4 Flash q4 | ~256 Go | Mac Studio Ultra | Station six chiffres USD |
| V4 PRO q2 | ~512 Go | Mac Studio M3 Ultra max | Six à sept chiffres USD |
Le README est explicite : l’inférence CPU sur macOS n’est pas un SLA de production — Metal ou CUDA constitue le chemin attendu. Le chemin CPU peut aussi déclencher des problèmes graves de mémoire virtuelle sur macOS récent : commencez par confirmer Metal, pas par augmenter le swap.
- Stockage modèle : prévoir des centaines de Go NVMe pour poids, sidecars et répertoires KV.
- Énergie et thermique : prefill soutenu sur puces Max/Ultra est une charge station de travail.
- CapEx dupliqué : cinq ingénieurs × Mac 96 Go coûte plus vite qu’un hôte bare metal 128 Go partagé.
04Pourquoi Metal et Mac restent la cible principale
- UMA : CPU et GPU partagent un grand réservoir — crucial pour d’énormes checkpoints MoE.
- Bande passante : les niveaux Max/Ultra M-series offrent une bande passante mémoire très élevée pour le prefill et le routage d’experts.
- SSD et KV disque : ds4 peut persister le KV sur un stockage local rapide, en phase avec les dispositions NVMe de macOS.
CUDA sous Linux (DGX Spark et assimilés) existe, mais les équipes déjà ancrées dans l’écosystème macOS préfèrent souvent louer un Mac haute mémoire plutôt que monter un second maillon d’inférence Linux.
| Approche | Force | Faiblesse pour ds4 |
|---|---|---|
| Acheter un Mac 96 Go | Faible latence à domicile | CapEx élevé ; veille casse les agents 7×24 |
| VM GPU générique | Élasticité | Pas de chemin Metal production pour ds4 |
| Location CALMVPS bare metal | Palier UMA prévisible ; partage d’équipe ; ~120 s | Discipline SSH/tunnel requise |
05Six étapes pour faire tourner ds4-server sur un Mac bare metal CALMVPS
Prérequis : accès SSH à un Mac bare metal CALMVPS avec mémoire unifiée suffisante et NVMe libre. Recoupez chaque commande avec le README de la révision ds4 que vous compilez.
- Choisir le palier RAM : sur la page tarifs location, commandez une mémoire unifiée d’au moins 96 Go (128 Go recommandé) et réservez des centaines de Go pour poids et KV. Estimez les sessions agent simultanées — chacune grossit KV et traces d’outils.
- Valider l’hôte : version macOS, Xcode CLT, Metal disponible ; durcir SSH ; ne jamais exposer un
ds4-servernon authentifié sur Internet public. - Compiler ds4 pour Metal : cloner le dépôt officiel et compiler selon le README pour les cibles Metal macOS.
- Stager le GGUF : télécharger le fichier DeepSeek V4 Flash aligné sur votre révision ds4 ; le placer sur SSD local rapide.
- Démarrer le serveur : suivre les flags README pour chemin modèle, contexte et KV disque — par exemple :
./ds4-server \
-m /path/to/model.gguf \
--ctx 100000 \
--kv-disk-dir /var/ds4-kv \
--kv-disk-space-mb 8192
- Pointer l’IDE : définir l’URL de base compatible OpenAI via tunnel SSH ou réseau privé ; valider le tool calling avant déploiement équipe.
- Exécuter
ds4-serversous un utilisateur dédié avec rotation des logs sur le répertoire KV. - Épingler les empreintes de fichiers modèle dans un runbook interne.
- Limiter l’accès HTTP via
ssh -Lou Tailscale ; faire tourner les clés API des clients type Cursor.
06Références citables, FAQ et quand CALMVPS l’emporte
- Plancher RAM documenté : chemin Metal visant du matériel type MacBook à partir de 96 Go ; 128 Go plus confortable selon l’upstream.
- Backends production : Metal sur macOS ; CUDA sur Linux ; CPU pour diagnostic uniquement.
- Entrée service : HTTP
ds4-serveravec compatibilité clients OpenAI/Anthropic. - Flags contexte/KV : exemples README avec grand
--ctxet KV disque — quotas = planification de capacité.
FAQ : Mac 32 Go ? Hors chemin documenté. Llama 3 ? Non. Risque zéro ? Payload local, mais durcissez SSH, tunnels et clés.
Les API publiques simplifient le budget mais envoient le code hors site ; la gouvernance des journaux d’outils devient un projet à part entière. ds4 sur bare metal rend le contrôle — contre de la RAM à financer. La location transforme cela en sprint annulable, idéal avant d’amortir un Mac Studio.
Faire tourner ds4 sur un portable qui dort interrompt les longues sessions KV. Un VPS Linux économique sans Metal rate le chemin production. Pour des essais d’agents locaux stables 7×24, des paliers RAM prévisibles et un partage d’équipe, la location Mac bare metal multirégionale CALMVPS est en général le meilleur compromis : Apple Silicon dédié, livraison en environ 120 secondes, durées journalières ou mensuelles flexibles. Consultez les tarifs CALMVPS et commandez un Mac mini M4 lorsque le palier mémoire est validé.