antirez ds4 и локальный DeepSeek V4 на Mac в 2026:
барьер 96 ГБ UMA и аренда bare metal

В 2026 автор Redis antirez выпустил ds4 (DwarfStar 4) — автономный движок на C под DeepSeek V4 Flash с продакшен-путём через Metal, а не очередной универсальный GGUF-обёртчик. ds4-server подключают к Cursor, Claude Code и opencode через OpenAI-совместимый HTTP.

Узкое место редко в сборке: это unified memory (UMA). Upstream фиксирует старт около 96 ГБ (q2), комфортный прод — от 128 ГБ. Ниже — матрица RAM, границы ds4, чеклист из шести шагов и как аренда high-memory bare metal Mac CALMVPS переводит CapEx в почасовой OpEx без потери Metal/UMA-траектории.

01Что такое ds4 и зачем он команде в 2026

llama.cpp, Ollama и MLX закрывают широкий зоопарк чекпоинтов. ds4 делает ставку на одно семейство моделей end-to-end: загрузчики, рендер промпта, tool calling, KV в RAM и на диске, HTTP и связка с coding-агентами в одном нативном стеке.

  • Замысел автора: локальный single-model опыт, когда открытые веса близки к frontier и асимметричные кванты укладываются в класс 96–128 ГБ UMA.
  • Не universal runner: README исключает произвольный GGUF; прод — Metal на macOS или CUDA на Linux.
  • Агентный контур: ds4-server отдаёт OpenAI- и Anthropic-совместимые API — IDE видит частного вендора модели.

После каждого релиза сверяйте команды и backends с официальным репозиторием.

antirez/ds4 на GitHub

A few words on DS4 (antirez.com)

02Технические сильные стороны и жёсткие ограничения

Матрица возможностей ds4 (README upstream, май 2026)
Измерениеds4 даётТипичная ошибка
Охват моделиПуть DeepSeek V4 Flash; фокус может сместиться на следующий сильный open checkpointЛюбой случайный GGUF
Backend macOSMetal-граф по умолчанию; железо от 96 ГБ UMAMac 32 ГБ с тяжёлым swap
КвантованиеАсимметричные рецепты DS4 2/8 битОжидание паритета generic q4_0
Длинный контекстБольшой ctx; disk KV через --kv-disk-dirПолный prefill на каждый turn
Сервисds4-server и HTTP OpenAI/AnthropicТолько CLI-чат

03Порог железа: 96 ГБ — стартовая линия, не опция

Типичные уровни памяти для DeepSeek V4 + ds4 (планирование)
Модель / quantUMA RAMТиповое железоДиапазон покупки
V4 Flash q2~96 ГБMacBook Pro M3/M4/M5 MaxНоутбук премиум, пять цифр USD
V4 Flash q4~256 ГБMac Studio UltraРабочая станция, шесть цифр USD
V4 PRO q2~512 ГБMac Studio M3 Ultra maxШесть–семь цифр USD

README предупреждает: CPU-inference на macOS не SLA продакшена — рабочий путь Metal или CUDA.

04Metal, UMA и почему Mac — первичная платформа

  • UMA: CPU и GPU делят один большой пул — критично для крупных MoE-checkpoint, где отдельная VRAM на PCIe создаёт копии и фрагментацию.
  • Пропускная способность памяти: уровни M Max/Ultra дают сотни ГБ/с к UMA — prefill и expert routing упираются в bandwidth, а не только в FLOPS GPU.
  • Metal-граф: ds4 компилирует вычислительный граф под Apple GPU; CPU-путь оставлен для диагностики, не для 7×24.
  • NVMe + disk KV: флаги вроде --kv-disk-dir сбрасывают KV на быстрый локальный SSD — на арендованном bare metal важно зарезервировать ГБ под /var/ds4-kv, не только под GGUF.

CUDA на Linux (DGX Spark и аналоги) существует, но команды с macOS-цепочкой чаще арендуют Mac с большой UMA, чем строят второй Linux-hop без Metal.

05Шесть шагов: ds4-server на bare metal Mac CALMVPS

  1. Выбрать tier RAM: на странице цен аренды заказать UMA от 96 ГБ (рекомендуется 128 ГБ); заложить сотни ГБ под веса и KV.
  2. Проверить хост: версия macOS, Xcode CLT, Metal доступен; ужесточить SSH; не выставлять неаутентифицированный ds4-server в публичный интернет.
  3. Собрать ds4 под Metal: клонировать официальный репозиторий и собрать по README для macOS Metal targets.
  4. Разместить GGUF: скачать DeepSeek V4 Flash, совпадающий с ревизией ds4; положить на быстрый локальный SSD.
  5. Запустить сервер: флаги README для пути модели, контекста и disk KV — пример:
ds4-server.sh
./ds4-server \
  -m /path/to/model.gguf \
  --ctx 100000 \
  --kv-disk-dir /var/ds4-kv \
  --kv-disk-space-mb 8192
  1. Подключить IDE: base URL OpenAI-совместимого API через SSH-туннель или приватную сеть; прогнать tool calling до rollout команды; мониторить latency prefill при росте ctx.

06Цитируемые спеки, FAQ и когда CALMVPS уместнее покупки

  • Документированный пол RAM: путь Metal от 96 ГБ класса MacBook; 128 ГБ комфортнее по upstream.
  • Прод backends: Metal на macOS; CUDA на Linux; CPU — только диагностика.
  • Точка входа: HTTP ds4-server с совместимостью клиентов OpenAI/Anthropic.

ds4 на ноутбуке, уходящем в сон, рвёт длинные KV-сессии. Дешёвый Linux VPS без Metal не попадает в прод-путь Apple. Для стабильного 7×24, предсказуемых tier UMA и совместного доступа команды к локальным агентам мультирегиональная аренда bare metal Mac CALMVPS обычно выигрывает: выделенный Apple Silicon, выдача около 120 секунд, гибкие суточные и месячные сроки. См. цены аренды CALMVPS и оформить заказ Mac mini M4.