2025년 XNUMX월 중국 AI 스타트업 DeepSeek이 출시를 발표했습니다. 딥시크-V3.1, 회사가 "에이전트 시대를 향한" 첫걸음이라고 홍보하는 중간 세대 업그레이드입니다. 이 업데이트는 하이브리드 추론 모드("사고" 또는 "비사고" 모드로 실행 가능한 단일 모델), 훨씬 더 길어진 컨텍스트 윈도우, 그리고 도구 호출 및 다단계 에이전트 행동에 대한 맞춤형 사후 훈련 개선을 제공합니다.
DeepSeek-V3.1은 무엇이고 왜 중요한가요?
DeepSeek-V3.1은 DeepSeek V3 시리즈의 최신 프로덕션 등급 업데이트입니다. DeepSeek이 사후 학습 및 확장하여 두 가지 사용자 표시 작동 모드를 지원하는 하이브리드 MoE 언어 모델 패밀리(V3 계열)입니다. DeepSeek-V3.1은 DeepSeek-V3.1-Base와 전체 DeepSeek-VXNUMX의 두 가지 주요 버전으로 제공됩니다.
- 무생각(딥섹 채팅): 속도와 대화에 최적화된 표준 채팅 완성 모드입니다.
- 사고(deepseek-reasoner): 구조화된 다단계 추론과 도구/에이전트 오케스트레이션을 우선시하는 에이전트 추론 모드입니다.
이 릴리스에서는 세 가지 눈에 띄는 개선 사항에 중점을 두었습니다. 지연 시간과 기능의 균형을 이루는 하이브리드 추론 파이프라인, 보다 스마트한 도구 호출/에이전트 오케스트레이션, 대폭 확장된 컨텍스트 창(128K 토큰으로 광고됨)입니다.
왜 문제 : DeepSeek-V3.1은 효율적인 대규모 MoE 아키텍처와 툴링 기본 요소, 그리고 매우 긴 컨텍스트 윈도우를 결합하는 업계 전반의 추세를 이어갑니다. 이러한 조합은 처리량과 외부 툴을 결정적으로 "호출"하는 기능이 모두 필요한 엔터프라이즈 에이전트, 검색 및 추론 워크플로, 장문 문서 요약, 툴 기반 자동화에 중요합니다.
DeepSeek-V3.1은 이전 DeepSeek 릴리스와 무엇이 다릅니까?
하이브리드 추론: 하나의 모델, 두 가지 운영 모드
헤드라인 아키텍처 변경은 다음과 같습니다. 하이브리드 추론DeepSeek은 V3.1이 동일한 모델 인스턴스 내에서 "생각" 모드와 "생각하지 않음" 모드를 모두 지원하며, 채팅 템플릿이나 UI 토글(DeepSeek의 "DeepThink" 버튼)을 변경하여 선택할 수 있다고 설명합니다. 실제로 이는 개발자의 요구에 따라 모델이 내부 추론 추적(사고의 사슬 스타일 에이전트 워크플로에 유용함)을 생성하거나 중간 추론 토큰을 노출하지 않고 직접 응답하도록 지시할 수 있음을 의미합니다. DeepSeek은 이를 통해 애플리케이션이 지연 시간/상세 정보의 균형을 선택할 수 있도록 하는 동시에 더욱 에이전트적인 워크플로를 구축할 수 있는 방법을 제시합니다.
더 큰 컨텍스트 창과 토큰 기본형
공식 릴리스 노트에 다음과 같은 내용이 보고되었습니다. 훨씬 더 큰 컨텍스트 창 V3.1에서는 커뮤니티 테스트와 회사 게시물을 통해 확장된 컨텍스트를 제공합니다. 128만 토큰 일부 호스팅된 변형의 경우, 훨씬 더 긴 대화, 다중 문서 추론 또는 긴 코드 베이스를 단일 세션에 제공할 수 있습니다. 이를 보완하기 위해 DeepSeek은 몇 가지 특수 제어 토큰(예: <|search_begin|>/<|search_end|>, <think> / </think>) 도구 호출을 구조화하고 내부적으로 "사고" 세그먼트를 구분하기 위한 것으로, 외부 도구와의 조정을 간소화하는 디자인 패턴입니다.
강화된 에이전트/도구 기능 및 지연 시간 개선
DeepSeek은 V3.1이 다음과 같은 이점을 제공한다고 말합니다. 훈련 후 최적화 도구 호출 및 다단계 에이전트 작업에 중점을 두었습니다. 이 모델은 이전 DeepSeek R1 빌드보다 "생각" 모드에서 더 빠르게 답변에 도달하고, 외부 API를 호출하거나 다단계 계획을 실행할 때 더욱 안정적이라고 합니다. 더 빠르고 에이전트가 더 잘 활용할 수 있는 추론이라는 이러한 포지셔닝은 어시스턴트, 자동화 또는 에이전트 워크플로를 구축하는 팀에게 명확한 제품 차별화 요소입니다.
DeepSeek-V3.1의 아키텍처는 무엇입니까?
DeepSeek-V3.1은 DeepSeek-V3 제품군의 핵심 연구를 기반으로 구축되었습니다. 전문가 혼합(MoE) 효율성과 확장성을 고려하여 설계된 일련의 아키텍처 혁신을 갖춘 백본입니다. DeepSeek-V3(기반 제품군)에 대한 공개 기술 보고서는 다음과 같은 내용을 설명합니다.
- 수천억 개의 총 매개변수와 더 작은 매개변수를 포함하는 대규모 MoE 설계 활성화 토큰당 매개변수 수(모델 카드에는 총 671B개의 매개변수가 나열되어 있으며 토큰당 약 37B개가 활성화됨).
- 추론 비용을 줄이는 동시에 용량을 보존하는 다중 헤드 잠재 주의(MLA)와 맞춤형 DeepSeekMoE 라우팅 및 확장 접근 방식입니다.
- 보조 부하 분산 손실 항목의 필요성을 제거하고 다중 토큰 예측 목표를 채택하여 처리량과 시퀀스 모델링을 개선하는 교육 목표 및 부하 분산 전략입니다.
왜 MoE + MLA인가요?
Mixture-of-Experts는 모델이 토큰당 전문가 하위 집합만 활성화하면서 높은 이론적 매개변수 수를 유지할 수 있도록 합니다. 이를 통해 토큰당 계산량이 줄어듭니다. MLA는 DeepSeek의 어텐션 변형으로, 모델이 여러 전문가와 긴 컨텍스트에 걸쳐 어텐션 연산을 효율적으로 확장할 수 있도록 지원합니다. 이러한 선택 사항들을 통해 다양한 배포 환경에서 사용 가능한 추론 비용을 유지하면서 매우 큰 체크포인트를 학습하고 제공할 수 있습니다.
DeepSeek-V3.1은 벤치마크와 실제 테스트에서 어떤 성능을 보입니까?
V3.1을 단어로 비교하면 다음과 같습니다.
- V3(0324)에 대하여: V3.1은 전반적으로, 특히 코딩 및 에이전트 작업에서 눈에 띄는 업그레이드입니다. 예: LiveCodeBench 에서 점프하다 43.0 년 → 56.4 년 (생각하지 않고) 그리고 → 74.8 (생각); Aider-Polyglot 에 55.1 → 68.4 / 76.3.
- R1-0528 대비: R1은 여전히 강력한 "추론 조정" 비교 지점이지만 V3.1-자주 생각하는 것이 R1-0528과 같거나 더 높습니다. (AIME/HMMT, LiveCodeBench)를 제공하는 동시에 저지연 사용을 위한 생각이 필요 없는 경로도 제공합니다.
- 일반 지식(MMLU 변형): "생각" 측면에서 볼 때 V3.1 슬롯은 R1-0528 바로 아래에 있지만, 이전 V3보다 위에 있습니다.
일반 지식 및 학문적
| 벤치마크(미터법) | V3.1-생각하지 않음 | V3 (0324 년 XNUMX 월 XNUMX 일) | V3.1-생각하기 | R1-0528 |
|---|---|---|---|---|
| MMLU-리덕스 (정확히 일치) | 91.8 | 90.5 | 93.7 | 93.4 |
| MMLU-프로 (정확히 일치) | 83.7 | 81.2 | 84.8 | 85.0 |
| GPQA-다이아몬드 (패스@1) | 74.9 | 68.4 | 80.1 | 81.0 |
이것이 의미하는 바는 다음과 같습니다. V3.1은 지식/학업 과제에서 V3보다 향상되었으며, "사고" 부문에서는 어려운 과학 문제(GPQA-Diamond)에서 R1과의 격차가 줄었습니다.
코딩(비대리인)
| 벤치마크(미터법) | V3.1-생각하지 않음 | V3 (0324 년 XNUMX 월 XNUMX 일) | V3.1-생각하기 | R1-0528 |
|---|---|---|---|---|
| 라이브코드벤치(2408–2505) (패스@1) | 56.4 | 43.0 | 74.8 | 73.3 |
| Aider-Polyglot (정확성) | 68.4 | 55.1 | 76.3 | 71.6 |
| 코드포스-Div1 (평가) | - | - | 2091 | 1930 |
배송 시 요청 사항:
- 라이브코드벤치(2408–2505) 는 집계된 기간(2024년 2025월→1년 XNUMX월)을 나타냅니다. 높은 Pass@XNUMX은 다양한 코딩 과제에서 더 높은 첫 번째 시도 정확성을 나타냅니다.
- Aider-Polyglot 다양한 언어에 걸쳐 도우미 스타일의 코드 편집을 시뮬레이션합니다. V3.1-Thinking이 이 세트를 선도하고 V3.1-NonThinking은 V3(0324)에 비해 상당히 발전했습니다.
- 모델 카드는 다음을 보여줍니다. V3(0324) 55.1% Aider에서—Aider의 해당 빈티지 공개 리더보드 항목과 일치합니다. (V3.1의 더 높은 점수는 모델 카드에 새롭게 추가되었습니다.)
코딩(에이전트 작업)
| 벤치마크(미터법) | V3.1-생각하지 않음 | V3 (0324 년 XNUMX 월 XNUMX 일) | V3.1-생각하기 | R1-0528 |
|---|---|---|---|---|
| SWE 검증됨 (에이전트 모드) | 66.0 | 45.4 | - | 44.6 |
| SWE-벤치 다국어 (에이전트 모드) | 54.5 | 29.3 | - | 30.5 |
| 터미널 벤치 (터미널 1 프레임워크) | 31.3 | 13.3 | - | 5.7 |
중요한 주의사항: 이것들은 DeepSeek의 내부 프레임워크를 사용한 에이전트 평가 (툴링, 다단계 실행) 순수한 다음 토큰 디코딩 테스트가 아닙니다. "LLM + 오케스트레이션" 기능을 포착합니다. 이러한 테스트는 체계 결과(재현성은 정확한 에이전트 스택과 설정에 따라 달라질 수 있음).
수학 및 경쟁 추론
| 벤치마크(미터법) | V3.1-생각하지 않음 | V3 (0324 년 XNUMX 월 XNUMX 일) | V3.1-생각하기 | R1-0528 |
|---|---|---|---|---|
| 에임 2024 (패스@1) | 66.3 | 59.4 | 93.1 | 91.4 |
| 에임 2025 (패스@1) | 49.8 | 51.3 | 88.4 | 87.5 |
| HMMT 2025 (패스@1) | 33.5 | 29.2 | 84.2 | 79.4 |
테이크 아웃 : "생각" 모드 드라이브 매우 큰 수학 경연 대회 세트에서의 리프트—V3.1-Thinking은 보고된 실행에서 AIME/HMMT에서 R1-0528을 앞지릅니다.
검색 증강/에이전트 QA
| 벤치마크(미터법) | V3.1-생각하지 않음 | V3 (0324 년 XNUMX 월 XNUMX 일) | V3.1-생각하기 | R1-0528 |
|---|---|---|---|---|
| 브라우즈컴프 | - | - | 30.0 | 8.9 |
| 브라우즈컴프_zh | - | - | 49.2 | 35.7 |
| 인류의 마지막 시험(Python + 검색) | - | - | 29.8 | 24.8 |
| 심플QA | - | - | 93.4 | 92.3 |
| 인류의 마지막 시험(텍스트만) | - | - | 15.9 | 17.7 |
참고 : DeepSeek은 검색 에이전트 결과가 자체 검색 프레임워크(상용 검색 API + 페이지 필터링, 128K 컨텍스트)를 사용한다고 명시합니다. 여기서 방법론이 중요하며, 재현에는 유사한 도구가 필요합니다.
한계와 앞으로의 방향은 무엇인가?
DeepSeek-V3.1은 중요한 엔지니어링 및 제품 개발 단계입니다. 장기 컨텍스트 학습, 하이브리드 템플릿, 그리고 MoE 아키텍처를 광범위하게 사용 가능한 체크포인트로 통합했습니다. 그러나 다음과 같은 한계가 있습니다.
- 현실 세계의 대리 안전, 장기적 맥락 요약에서의 환각, 적대적인 즉각적인 행동은 여전히 시스템 수준의 완화책이 필요합니다.
- 벤치마크는 고무적이지만 균일하지는 않습니다. 성과는 도메인, 언어 및 평가 제품군에 따라 다르므로 독립적인 검증이 필요합니다.
- 지정학적 요소와 공급망 요소(하드웨어 가용성 및 칩 호환성)는 이전에 DeepSeek의 일정에 영향을 미쳤으며 고객이 규모에 맞게 배포하는 방식에 영향을 미칠 수 있습니다.
CometAPI를 통한 시작하기
CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.
개발자는 액세스할 수 있습니다 딥시크 R1(deepseek-r1-0528) 및 DeepSeek-V3.1을 통해 코멧API, 나열된 최신 모델 버전은 기사 발행일을 기준으로 합니다. 시작하려면 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.
결론
DeepSeek-V3.1은 실용적이고 엔지니어링 중심적인 업데이트를 나타냅니다. 더 큰 컨텍스트 창, 하이브리드 사고/비사고 추론, 개선된 도구 상호 작용 및 OpenAI 호환 API는 이를 빌드하는 팀에게 매력적인 옵션으로 만듭니다. 에이전트 어시스턴트, 장기 컨텍스트 애플리케이션 및 저비용 코드 지향 워크플로.
