Redis 저자 antirez(Salvatore Sanfilippo)가 2026년에 공개한 ds4(DwarfStar 4)는 DeepSeek V4 Flash를 Mac에서 Metal 로컬 추론할 수 있게 했습니다. 순수 C, 자급형, 단일 모델에 깊게 최적화된 설계이며 범용 GGUF 런타임 위에 얹는 방식이 아닙니다. 커뮤니티는 곧 Cursor, Claude Code, opencode 등과의 오프라인 API 연동을 떠올렸습니다.
대부분을 막는 것은 컴파일이 아니라 통합 메모리입니다. 공식 경로는 96GB부터(q2 양자화), 여유 있게는 128GB Mac 또는 이와 비슷한 대용량 머신을 전제로 합니다. 본문은 최신 모델을 로컬에서 검증하고 싶지만 일괄 구매 CapEx를 피하고 싶은 개발자를 위해 하드웨어 대조표, ds4 능력 경계, ds4-server 6단계 체크리스트를 제시하고, CALMVPS 고메모리 베어메탈 Mac 대여로 추론 환경을 온디맨드 인프라로 바꾸는 방법을 설명합니다.
01 ds4란 무엇인가: 2026년 「단일 모델 엔진」이 부상한 배경
로컬 추론 선택지는 이미 많습니다. llama.cpp, Ollama, MLX 등이 여러 가중치를 돌립니다. ds4는 반대 방향입니다. DeepSeek V4 Flash(및 프로젝트가 추적하는 동족 체크포인트) 전용으로 로드, 프롬프트 렌더링, Tool Calling, KV 상태(메모리·디스크), HTTP 서비스, 코딩 Agent 접착을 하나의 네이티브 경로에 모았습니다.
- 저자 맥락: antirez는 Redis와 극소 C 문화로 알려져 있습니다. 개인 글에서 ds4를 「단일 모델 통합형 로컬 AI 경험」에 대한 응답으로 봅니다. 오픈 가중치가 충분히 강하고 96–128GB급 양자화가 맞을 때 하나의 모델에 대해 end-to-end 품질을 검증할 가치가 있다는 판단입니다.
- 범용 런타임과의 차이: README는 ds4가 범용 GGUF 로더가 아님을, 다른 런타임의 얇은 래퍼도 아님을 분명히 합니다. 프로덕션 추론은 Metal(macOS) 또는 CUDA(Linux, DGX Spark 등)를 쓰며 CPU 경로는 정확성 대조용입니다.
- Agent 연동 의미: 내장
ds4-server가 OpenAI / Anthropic 호환 엔드포인트를 공개하므로 Cursor 등 클라이언트는 원격·로컬 인스턴스를 「프라이빗 모델 공급자」로 취급할 수 있습니다. 코드를 공용 API로 보내기 싫은 팀에게 구조적 변화입니다.
ds4가 건 것은 「충분히 강한 하나의 오픈 모델 + 충분히 특화된 엔진」이지 「매주 다른 7B 장난감」이 아닙니다.
릴리스 후에는 저장소와 블로그를 다시 열어 CLI 플래그와 백엔드 지원 범위를 맞춰 주십시오.
02 ds4 기술 강점과 능력 경계 대조
「ds4를 도입할지」를 판단하기 전에 아래 표로 강점과 하지 않는 일을 나누고 Ollama 감각으로 모델을 잘못 맞추지 마십시오.
| 관점 | ds4 제공 | 흔한 오해 |
|---|---|---|
| 모델 범위 | DeepSeek V4 Flash 전용 경로. 향후 동급 오픈 가중치로 교체 가능성 | 아무 Hugging Face GGUF나 넣으면 동작 |
| macOS 백엔드 | Metal 그래프가 프로덕션 기본. 96GB+ 통합 메모리 대상 | 저사양 Mac이 swap으로 전체 가중치 버팀 |
| 양자화 | 비대칭 2/8-bit 등 DS4 전용 레시피(라우팅 전문가는 더 공격적, 나머지 층은 정밀도 유지) | 범용 q4_0 원클릭 양자화와 동일 |
| 긴 컨텍스트 | 대컨텍스트 지원. KV 디스크 기록(--kv-disk-dir 등)으로 세션 간 상태 유지 용이 |
매 턴 전체 prefill 필수 |
| 도구 연동 | ds4-server + OpenAI/Anthropic 호환 API. 코딩 Agent 방향 내장 |
CLI 채팅만 있고 HTTP 없음 |
커뮤니티 실측에 따르면 128GB급 Apple Silicon 노트북에서 284B급 MoE 체크포인트가 오프라인으로 코딩·Tool Calling을 수행했다는 보고가 있습니다. token/s는 자신의 빌드와 모델 파일로 측정하십시오. 2차 벤치마크 순위를 그대로 쓰지 마십시오.
03 로컬 배포 하드웨어 벽: 96GB는 「권장」이 아니라 출발선
ds4의 매력은 소프트웨어가 닫혀 있다는 점입니다. 장벽은 거의 통합 메모리 용량뿐입니다. 아래 표는 전형적인 양자화 티어와 조달 참고를 정리한 것입니다(가격은 지역·시기에 따라 변동하며 용량 계획용입니다).
| 모델 / 양자화 | 통합 메모리 하한 | 대표 기종 | 조달 참고 |
|---|---|---|---|
| V4 Flash · q2 | 약 96 GB | MacBook Pro M3/M4/M5 Max 등 | 고급 노트북 수백만 원대부터 |
| V4 Flash · q4 | 약 256 GB | Mac Studio Ultra 등 | 워크스테이션급 천만 원대부터 |
| V4 PRO · q2 | 약 512 GB | Mac Studio M3 Ultra 최상위 등 | 그 이상의 고가 구간 |
공식 문서는 최적화 그래프가 Metal/CUDA 대상임을 강조하며 CPU 추론을 프로덕션에 쓰지 말 것을 권합니다. macOS에서 CPU 경로를 시도하면 가상 메모리 관련 이슈가 나올 수 있습니다. 장애 대응 시 올바른 백엔드에서 돌고 있는지 먼저 확인하십시오.
- 숨은 비용: 본체 외에 모델 파일 수백 GB급 저장, 전력·냉각, 팀원마다 동급 기기를 사는 중복 CapEx가 있습니다.
- 기회 비용: 도착 전에는 「로컬 Agent가 클라우드 API를 대체할 수 있는지」를 검증하기 어렵습니다. 대여는 검증을 시간 과금으로 압축합니다.
- 운영 통증: 노트북 슬립은 긴 세션을 끊습니다. 로컬 KV 디렉터리는 정리 시 사라집니다. 미인증
ds4-server포트를 공유망에 노출하는 위험은 큽니다.
04 ds4가 Metal + Mac을 최우선에 두는 이유
ds4가 다른 플랫폼을 무시하는 것이 아니라 DeepSeek V4의 메모리·대역 특성이 Apple Silicon 통합 메모리(UMA)와 잘 맞기 때문입니다.
- UMA: CPU와 GPU가 같은 대용량 메모리를 공유해 디스크리트 GPU의 PCIe 복사 병목을 피합니다. 대형 MoE 체크포인트에 중요합니다.
- 메모리 대역: M 시리즈 Max/Ultra는 소비자급에서도 높은 대역을 제공해 prefill과 전문가 라우팅에 유리합니다.
- 고속 SSD + 디스크 KV: ds4는 KV Cache를 디스크에 쓸 수 있습니다. macOS NVMe와 설계가 겹쳐 긴 세션·백만 토큰급 실험에 도움이 됩니다(
--ctx와 디스크 할당은 직접 설정하십시오).
Linux에도 CUDA 경로(DGX Spark 등 「GPU in a box」)가 있으나 Cursor 등 macOS 네이티브 툴체인을 쓰는 독자에게는 고메모리 Mac을 빌리는 편이 Linux 추론기 + 터널보다 수고가 적은 경우가 많습니다.
05 최상위 Mac이 없을 때: CALMVPS에서 ds4-server 6단계
아래는 CALMVPS에서 통합 메모리 ≥96GB(128GB 권장) 베어메탈 원격 Mac을 주문하고 SSH로 로그인한 전제입니다. 빌드 플래그와 모델 경로는 ds4 저장소의 현행 README를 따르십시오.
- 기종 선택·개통: 요금 페이지에서 메모리 티어를 충족하는 M 시리즈 Max/Pro 이상을 고릅니다. GGUF와 KV용으로 수백 GB급 저장 여유를 확보하십시오.
- 시스템 검수: macOS 버전, Xcode Command Line Tools, Metal 가용 여부를 확인합니다. 호스트명과 SSH 키를 기록하고 공유망에서 미인증
ds4-server를 노출하지 마십시오. - ds4 소스·Metal 빌드: 공식 저장소를 clone하고 README의 macOS Metal 절차로
./ds4와./ds4-server를 만듭니다. - 모델 파일 준비: ds4 버전에 맞는 DeepSeek V4 Flash GGUF를 받습니다(경로·검증은 업스트림 릴리스 노트 참조). 로컬 SSD 고대역 경로에 둡니다.
- 서비스 기동(예시 골격): README 권장
ds4-server인자로 모델 경로, 컨텍스트, 디스크 KV를 지정합니다. 예:
./ds4-server \
-m /path/to/model.gguf \
--ctx 100000 \
--kv-disk-dir /var/ds4-kv \
--kv-disk-space-mb 8192
- Cursor / Agent 클라이언트 연결: 개발 머신에서 OpenAI 호환 Base URL을 SSH 터널 또는 내부 도달 가능한
ds4-server로 맞춥니다. 짧은 작업으로 Tool Calling과 긴 컨텍스트를 검증한 뒤 팀 트래픽을 열어 주십시오.
대여의 핵심은 시간·월 단위 과금, 빌드 체인·모델 캐시 사전 구성, PRO 티어가 필요할 때 더 높은 메모리 인스턴스로 전환 가능, 팀이 Mac Studio를 각자 사지 않고 소수 고메모리 노드를 공유하는 점입니다.
06 인용 가능 기술 파라미터, FAQ, CALMVPS 전환
- 공식 메모리 출발점: Metal 경로는 96GB RAM부터의 MacBook급을 가정합니다. README는 128GB급 「개인 하이엔드 / Mac Studio」를 더 편한 로컬 추론 출발점으로 언급합니다.
- 프로덕션 백엔드: macOS 기본 Metal, Linux는 CUDA 빌드, CPU는 대조·진단만 하며 SLA 경로가 아닙니다.
- 서비스 진입점:
ds4-server가 HTTP API를 제공해 OpenAI / Anthropic 클라이언트 생태계에 연결하기 쉽고 Cursor 등에 붙이기 좋습니다.
FAQ 요약
- 32GB Mac에서 됩니까? 공식 프로덕션 경로에 맞지 않습니다. 하드웨어를 올리거나 고메모리 인스턴스를 빌리십시오. swap에 맡기지 마십시오.
- Llama 3로 바꿀 수 있습니까? 불가합니다. 범용 런타임을 쓰거나 ds4가 지원하는 체크포인트 갱신을 기다리십시오.
- 데이터가 밖으로 나갑니까? 자체 인스턴스 추론이면 payload는 공용 LLM API를 거치지 않습니다. SSH, 터널, API Key 인증은 필수입니다.
ds4를 자주 잠자는 노트북에 넣으면 긴 세션 중단과 디스크 KV의 로컬 삭제가 약점입니다. macOS 없는 저가 VPS에는 Metal 프로덕션 경로가 없습니다. 안정적 7×24, 예측 가능한 메모리 티어, 팀 공유, 빠른 프로비저닝이 필요한 로컬 Agent 실험에는 CALMVPS 다리전 베어메탈 Mac 대여가 적합한 경우가 많습니다. Apple Silicon 전용, 약 120초 배포, 일/주/월로 검증 주기에 맞춰 주문할 수 있습니다. 기종과 요금은 CALMVPS 요금 페이지에서 확인하십시오.