В 2026 автор Redis antirez выпустил ds4 (DwarfStar 4) — автономный движок на C под DeepSeek V4 Flash с продакшен-путём через Metal, а не очередной универсальный GGUF-обёртчик. ds4-server подключают к Cursor, Claude Code и opencode через OpenAI-совместимый HTTP.
Узкое место редко в сборке: это unified memory (UMA). Upstream фиксирует старт около 96 ГБ (q2), комфортный прод — от 128 ГБ. Ниже — матрица RAM, границы ds4, чеклист из шести шагов и как аренда high-memory bare metal Mac CALMVPS переводит CapEx в почасовой OpEx без потери Metal/UMA-траектории.
01Что такое ds4 и зачем он команде в 2026
llama.cpp, Ollama и MLX закрывают широкий зоопарк чекпоинтов. ds4 делает ставку на одно семейство моделей end-to-end: загрузчики, рендер промпта, tool calling, KV в RAM и на диске, HTTP и связка с coding-агентами в одном нативном стеке.
- Замысел автора: локальный single-model опыт, когда открытые веса близки к frontier и асимметричные кванты укладываются в класс 96–128 ГБ UMA.
- Не universal runner: README исключает произвольный GGUF; прод — Metal на macOS или CUDA на Linux.
- Агентный контур:
ds4-serverотдаёт OpenAI- и Anthropic-совместимые API — IDE видит частного вендора модели.
После каждого релиза сверяйте команды и backends с официальным репозиторием.
02Технические сильные стороны и жёсткие ограничения
| Измерение | ds4 даёт | Типичная ошибка |
|---|---|---|
| Охват модели | Путь DeepSeek V4 Flash; фокус может сместиться на следующий сильный open checkpoint | Любой случайный GGUF |
| Backend macOS | Metal-граф по умолчанию; железо от 96 ГБ UMA | Mac 32 ГБ с тяжёлым swap |
| Квантование | Асимметричные рецепты DS4 2/8 бит | Ожидание паритета generic q4_0 |
| Длинный контекст | Большой ctx; disk KV через --kv-disk-dir | Полный prefill на каждый turn |
| Сервис | ds4-server и HTTP OpenAI/Anthropic | Только CLI-чат |
03Порог железа: 96 ГБ — стартовая линия, не опция
| Модель / quant | UMA RAM | Типовое железо | Диапазон покупки |
|---|---|---|---|
| V4 Flash q2 | ~96 ГБ | MacBook Pro M3/M4/M5 Max | Ноутбук премиум, пять цифр USD |
| V4 Flash q4 | ~256 ГБ | Mac Studio Ultra | Рабочая станция, шесть цифр USD |
| V4 PRO q2 | ~512 ГБ | Mac Studio M3 Ultra max | Шесть–семь цифр USD |
README предупреждает: CPU-inference на macOS не SLA продакшена — рабочий путь Metal или CUDA.
04Metal, UMA и почему Mac — первичная платформа
- UMA: CPU и GPU делят один большой пул — критично для крупных MoE-checkpoint, где отдельная VRAM на PCIe создаёт копии и фрагментацию.
- Пропускная способность памяти: уровни M Max/Ultra дают сотни ГБ/с к UMA — prefill и expert routing упираются в bandwidth, а не только в FLOPS GPU.
- Metal-граф: ds4 компилирует вычислительный граф под Apple GPU; CPU-путь оставлен для диагностики, не для 7×24.
- NVMe + disk KV: флаги вроде
--kv-disk-dirсбрасывают KV на быстрый локальный SSD — на арендованном bare metal важно зарезервировать ГБ под /var/ds4-kv, не только под GGUF.
CUDA на Linux (DGX Spark и аналоги) существует, но команды с macOS-цепочкой чаще арендуют Mac с большой UMA, чем строят второй Linux-hop без Metal.
05Шесть шагов: ds4-server на bare metal Mac CALMVPS
- Выбрать tier RAM: на странице цен аренды заказать UMA от 96 ГБ (рекомендуется 128 ГБ); заложить сотни ГБ под веса и KV.
- Проверить хост: версия macOS, Xcode CLT, Metal доступен; ужесточить SSH; не выставлять неаутентифицированный
ds4-serverв публичный интернет. - Собрать ds4 под Metal: клонировать официальный репозиторий и собрать по README для macOS Metal targets.
- Разместить GGUF: скачать DeepSeek V4 Flash, совпадающий с ревизией ds4; положить на быстрый локальный SSD.
- Запустить сервер: флаги README для пути модели, контекста и disk KV — пример:
./ds4-server \
-m /path/to/model.gguf \
--ctx 100000 \
--kv-disk-dir /var/ds4-kv \
--kv-disk-space-mb 8192
- Подключить IDE: base URL OpenAI-совместимого API через SSH-туннель или приватную сеть; прогнать tool calling до rollout команды; мониторить latency prefill при росте ctx.
06Цитируемые спеки, FAQ и когда CALMVPS уместнее покупки
- Документированный пол RAM: путь Metal от 96 ГБ класса MacBook; 128 ГБ комфортнее по upstream.
- Прод backends: Metal на macOS; CUDA на Linux; CPU — только диагностика.
- Точка входа: HTTP
ds4-serverс совместимостью клиентов OpenAI/Anthropic.
ds4 на ноутбуке, уходящем в сон, рвёт длинные KV-сессии. Дешёвый Linux VPS без Metal не попадает в прод-путь Apple. Для стабильного 7×24, предсказуемых tier UMA и совместного доступа команды к локальным агентам мультирегиональная аренда bare metal Mac CALMVPS обычно выигрывает: выделенный Apple Silicon, выдача около 120 секунд, гибкие суточные и месячные сроки. См. цены аренды CALMVPS и оформить заказ Mac mini M4.