DeepSeek v3.2란 무엇인가요?
DeepSeek v3.2는 DeepSeek V3 계열의 최신 프로덕션 릴리스로, 장문 컨텍스트 이해, 견고한 에이전트/도구 사용, 고급 추론, 코딩 및 수학을 위해 설계된 추론 우선(open-weight) 대규모 언어 모델 계열입니다. 본 릴리스에는 여러 변형(프로덕션용 V3.2와 고성능 V3.2-Speciale)이 포함됩니다. 이 프로젝트는 **DeepSeek Sparse Attention(DSA)**라는 새로운 희소 어텐션 메커니즘과 에이전트/“생각하기” 워크플로(“Thinking in Tool-Use”)를 통해 비용 효율적인 장문 컨텍스트 추론을 강조합니다.
주요 기능(개요)
- DeepSeek Sparse Attention(DSA): 장문 컨텍스트 시나리오에서 연산량을 크게 줄이면서 장거리 추론을 보존하는 희소 어텐션 메커니즘. (핵심 연구 주장;
V3.2-Exp에 사용.) - 에이전트형 사고 + 도구 사용 통합: V3.2는 도구 사용에 “생각하기”를 내재화하는 데 초점을 둡니다. 모델은 도구를 호출할 때 추론/사고 모드와 비사고(일반) 모드로 동작할 수 있어 다단계 작업과 도구 오케스트레이션에서 의사결정을 개선합니다.
- 대규모 에이전트 데이터 합성 파이프라인: DeepSeek은 수천 개의 환경과 수만 개의 복잡한 지시를 아우르는 학습 코퍼스와 에이전트 합성 파이프라인을 통해 대화형 작업에 대한 견고함을 높였다고 보고합니다.
- DeepSeek Sparse Attention(DSA): DSA는 V3.2 라인(최초 도입은 V3.2-Exp)의 세분화된 희소 어텐션 방식으로, 어텐션 복잡도를 단순한 O(L²)에서 O(L·k) 형태(k ≪ L)로 줄이기 위해 쿼리 토큰당 더 작은 키/밸류 토큰 집합을 선택합니다. 그 결과 매우 긴 컨텍스트(128K)에서 메모리/연산이 크게 감소하여 장문 컨텍스트 추론 비용이 실질적으로 낮아집니다.
- Mixture-of-Experts(MoE) 백본과 Multi-head Latent Attention(MLA): V3 계열은 MoE를 사용해 용량을 효율적으로 늘리고(명목상 파라미터 수는 크지만 토큰당 활성화는 제한) MLA 기법을 통해 품질을 유지하고 연산을 제어합니다.
기술 사양(간단 정리)
- 명목 파라미터 범위: 약 671B–685B(변형에 따라 다름).
- 컨텍스트 윈도우(문서화된 기준): vLLM/레퍼런스 구성에서 128,000 토큰(128K).
- 어텐션: DeepSeek Sparse Attention(DSA) + MLA; 장문 컨텍스트에서 어텐션 복잡도 감소.
- 수치/학습 정밀도: BF16 / F32 및 배포용 압축 양자화 형식(F8_E4M3 등) 제공.
- 아키텍처 계열: 토큰당 활성화를 절약하는 MoE(전문가 혼합) 백본.
- 입출력: 표준 토크나이즈된 텍스트 입력(채팅/메시지 형식 지원); 도구 호출(tool-use API 프리미티브)과 대화형 채팅형 호출 및 API 기반 프로그램적 완료를 모두 지원.
- 제공 변형:
v3.2,v3.2-Exp(실험적, DSA 첫 도입),v3.2-Speciale(추론 우선, 단기간 API 전용).
벤치마克 성능
고연산 V3.2-Speciale는 여러 추론/수학/코딩 벤치마크에서 최신 상위 모델과 동급 혹은 그 이상에 도달했으며, 일부 최고 수준 수학 문제 세트에서 최상위 성적을 기록했습니다. 프리프린트는 선별된 추론 벤치마크에서 GPT-5 / Kimi K2 등과의 동급을 강조하고, 기존 DeepSeek R1/V3 대비 특정 개선을 보고합니다:
- AIME: 70.0 → 87.5(Δ +17.5).
- GPQA: 71.5 → 81.0(Δ +9.5).
- LCB_v6: 63.5 → 73.3(Δ +9.8).
- Aider: 57.0 → 71.6(Δ +14.6).
타 모델과의 비교(개요)
- GPT-5 / Gemini 3 Pro 대비(공개 주장): 저자와 일부 언론은 Speciale 변형이 선별된 추론 및 코딩 작업에서 동급 또는 우위라고 주장하며, 차별점으로 비용 효율성과 오픈 라이선싱을 강조합니다.
- 오픈 모델 대비(Olmo, Nemotron, Moonshot 등): DeepSeek은 장문 컨텍스트 효율을 위한 핵심 차별점으로 에이전트형 학습과 DSA를 강조합니다.
대표적 사용 사례
- 에이전트 시스템/오케스트레이션: 모델 수준의 “생각하기”와 명시적 도구 호출 프리미티브의 이점을 활용하는 다중 도구 에이전트(API, 웹 스크레이퍼, 코드 실행 커넥터 등).
- 장문 문서 추론/분석: 법률 문서, 대규모 연구 코퍼스, 회의록 등 — 장문 컨텍스트 변형(128k tokens)으로 매우 큰 컨텍스트를 단 한 번의 호출에 유지.
- 복잡한 수학 및 코딩 지원: 벤더 벤치마크 기준으로
V3.2-Speciale는 고급 수학 추론과 광범위한 코드 디버깅 작업에 적합하다고 홍보됩니다. - 비용 민감 프로덕션 배포: DSA와 가격 정책을 통해 고컨텍스트 워크로드의 추론 비용 절감을 목표로 합니다.
DeepSeek v3.2 API 시작하기
CometAPI의 DeepSeek v3.2 API 가격: 공식가 대비 20% 할인
| 입력 토큰 | $0.22 |
|---|---|
| 출력 토큰 | $0.35 |
필수 단계
- cometapi.com에 로그인하세요. 아직 사용자 계정이 없다면 먼저 가입해 주세요.
- 인터페이스의 접근 자격 API 키를 발급받습니다. 개인 센터의 API 토큰에서 “Add Token”을 클릭해 토큰 키(sk-xxxxx)를 발급받아 제출합니다.
- 사이트의 URL을 확인하세요: https://api.cometapi.com/
사용 방법
- 엔드포인트 “
deepseek-v3.2”를 선택해 API 요청을 보내고 요청 본문을 설정합니다. 요청 방식과 본문은 웹사이트의 API 문서에서 확인할 수 있습니다. 편의를 위해 Apifox 테스트도 제공합니다. - 계정의 실제 CometAPI 키로 <YOUR_API_KEY>를 교체하세요.
- 채팅 형식을 선택하고, content 필드에 질문이나 요청을 입력합니다. 모델은 이 내용에 응답합니다.
- API 응답을 처리하여 생성된 답변을 얻습니다.