Deepseek V4 API 사용 방법

DeepSeek V4는 더 이상 소문이나 티저가 아닙니다. 2026년 4월 24일 기준, DeepSeek 공식 문서에 따르면 V4 프리뷰가 라이브로 제공되고, 오픈소스로 공개되었으며, API에서 두 가지 변형인 DeepSeek-V4-Pro와 DeepSeek-V4-Flash로 사용할 수 있습니다. 공식 릴리스는 1M 토큰 컨텍스트 윈도우, 이중 추론 모드, 그리고 OpenAI ChatCompletions 및 Anthropic 포맷과의 API 호환성을 강조합니다. DeepSeek은 레거시 모델명 deepseek-chat 및 deepseek-reasoner가 2026년 7월 24일에 사용 중단될 것이라고도 밝혔습니다.

개발자에게 이 조합이 중요한 이유는 간단합니다. 마이그레이션 마찰을 낮추면서, 구축 가능한 것의 상한을 높여 주기 때문입니다. 완전히 새로운 API 형태를 배우는 것이 아닙니다. 모델 이름만 업데이트하고, 베이스 URL은 유지한 채, 더 큰 컨텍스트 윈도우와 새로운 추론 동작을 활용해 배포하면 됩니다. DeepSeek 공식 문서는 베이스 URL을 유지하고 모델 파라미터를 deepseek-v4-pro 또는 deepseek-v4-flash로 변경하라고 명시합니다.

제품 관점에서 V4-Pro는 에이전트형 코딩, 세계 지식, 고난도 추론에 더 강력한 모델이고, V4-Flash는 더 빠르고 경제적이면서도 단순한 에이전트 작업에서 충분한 성능을 내는 옵션입니다. CometAPI는 두 모델 모두를 매우 낮은 비용으로 제공합니다.

DeepSeek V4 성능 벤치마크

DeepSeek의 프리뷰 릴리스에 따르면 V4-Pro는 총 1.6T / 활성 파라미터 49B 모델이며, V4-Flash는 총 284B / 활성 파라미터 13B 모델입니다. 같은 발표에서 DeepSeek은 V4-Pro가 에이전트형 코딩 벤치마크에서 오픈소스 SOTA를 달성하고, 세계 지식에서는 Gemini 3.1 Pro를 제외한 현행 오픈 모델을 선도하며, 수학·STEM·코딩에서도 현행 오픈 모델을 앞서고 최상위 폐쇄형 모델과 견줄 만하다고 밝혔습니다. 한편 V4-Flash는 추론 품질이 V4-Pro에 근접하고 단순 에이전트 작업에서는 대등하며, 더 작고 빠르고 비용 효율적으로 동작한다고 설명됩니다.

V4-Pro는 MMLU-Pro, FACTS Parametric, HumanEval, LongBench-V2 등 대표 작업 전반에서 V3.2-Base 대비 향상되었습니다. 이는 장문맥 비서, 코드 중심 워크플로, 지식 집약형 앱을 구축하는 팀에게 특히 중요한 발표입니다.

벤치마크 표: V3.2 vs V4-Flash vs V4-Pro

Benchmark	V3.2-Base	V4-Flash-Base	V4-Pro-Base
AGIEval (EM)	80.1	82.6	83.1
MMLU (EM)	87.8	88.7	90.1
MMLU-Pro (EM)	65.5	68.3	73.5
HumanEval (Pass@1)	62.8	69.5	76.8
LongBench-V2 (EM)	40.2	44.7	51.5

숫자가 실무에서 의미하는 것

챗봇을 만들 때는 벤치마크 차이가 다소 추상적으로 느껴질 수 있습니다. 하지만 리포지토리 규모의 코딩 어시스턴트, 계약 분석 도구, 여러 도구 호출에 걸친 긴 작업을 추적해야 하는 내부 에이전트를 만든다면, 이 벤치마크 프로파일은 매우 구체적입니다. 더 높은 장문맥 점수는 빠뜨리는 세부사항이 줄고, 문서 간 추론이 좋아지며, 실제 워크플로에서 “다시 말씀해 주세요” 같은 실패가 줄어들 수 있음을 의미합니다. 그래서 DeepSeek의 릴리스가 단순 대화 품질보다 장문맥 효율과 에이전트 동작을 강조하는 것입니다.

이 통합 방식을 가장 간단히 생각하는 법은 다음과 같습니다.

DeepSeek V4는 기존 DeepSeek 대화 모델과 동일한 API 표면을 사용하되, 새 V4 모델명으로 바꾸고 베이스 URL은 유지하며, V4-Pro 또는 V4-Flash 중에서 선택하면 됩니다. CometAPI 역시 OpenAI 스타일과 Anthropic 스타일 인터페이스 모두를 지원한다고 확인합니다.

1단계 — API 액세스 받기

DeepSeek의 첫 호출 문서에 따르면 모델을 호출하기 전에 DeepSeek 플랫폼에서 API 키가 필요합니다. 공식 문서는 채팅 엔드포인트, 베어러 토큰 패턴, 현재 V4 모델명을 보여 줍니다.

2단계 — 베이스 URL과 모델명 설정

공식 DeepSeek API의 문서화된 베이스 URL은 다음과 같습니다.

모델명은 deepseek-v4-flash와 deepseek-v4-pro입니다. DeepSeek은 또한 deepseek-chat과 deepseek-reasoner가 전환 기간 동안 V4-Flash 동작에 매핑되며 2026-07-24에 사용 중단될 것이라고 밝혔습니다.

3단계 — 첫 요청 보내기

최소한의 OpenAI 호환 요청은 다음과 같습니다:

curl https://api.deepseek.com/chat/completions \  -H "Content-Type: application/json" \  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \  -d '{    "model": "deepseek-v4-pro",    "messages": [      {"role": "system", "content": "You are a helpful assistant."},      {"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."}    ],    "stream": false  }'

DeepSeek 공식 문서는 동일한 요청 패턴을 보여 주며, stream을 true로 설정해 스트리밍을 활성화할 수 있음을 확인합니다.

4단계 — 사고 모드, 도구 호출, 스트리밍 활성화

V4 모델은 사고/비사고 모드, JSON 출력, 도구 호출, 채팅 접두사 완성을 지원합니다. 또한 최대 1M 컨텍스트와 최대 출력 384K 토큰을 지원합니다.

실용적인 Python 예:

from openai import OpenAIclient = OpenAI(
    base_url="https://api.cometapi.com",
    api_key="YOUR_DEEPSEEK_API_KEY",
)response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a senior coding assistant."},
        {"role": "user", "content": "Review this architecture for bottlenecks."}
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high"
    }
)print(response.choices[0].message.content)

이 패턴은 DeepSeek가 문서화한 추론 제어와 사고 모드 지원을 반영합니다.

5단계 — 테스트 후 프로덕션 적용

프로덕션 적용 전 다음 세 가지를 검증하세요.

워크로드가 더 큰 컨텍스트 윈도우의 이점을 실제로 얻는지.
기본적으로 사고 모드를 사용할지, 비사고 모드로 빠르게 응답할지.
특히 에이전트와 코딩 어시스턴트에서 워크플로에 도구 호출이 필수인지.

V4는 에이전트 용도를 염두에 두고 설계되었으며, Claude Code와 OpenCode 같은 도구와 이미 통합됩니다.

DeepSeek V4-Pro vs V4-Flash vs V3.2

대부분의 팀에게 중요한 질문은 “어떤 모델이 최고인가?”가 아니라 “이 워크로드에 가장 적합한 모델은 무엇인가?”입니다. 정답은 지연 시간, 비용, 추론 깊이, 컨텍스트 길이에 달려 있습니다. DeepSeek의 릴리스는 V4-Pro를 어려운 추론과 에이전트형 코딩을 위한 플래그십으로, V4-Flash를 여전히 강력한 장문맥 동작을 제공하면서도 고처리량 워크로드에 적합한 효율적 선택지로 포지셔닝합니다. V3.2는 비교와 마이그레이션 계획을 위한 기존 기준선으로 남습니다.

Model	Best for	Strengths	Tradeoff
DeepSeek V4-Pro	Heavy reasoning, coding, agents, research	Strongest overall capacity in V4; best for hard tasks	Higher cost and heavier compute footprint
DeepSeek V4-Flash	Fast assistants, long-doc workflows, high throughput	Faster responses; economical; still supports 1M context	Slightly weaker on the hardest knowledge-heavy tasks
DeepSeek V3.2	Baseline comparisons, transition plans	Useful as a reference point	Older generation; not the target state for new builds

제품 팀을 위한 실용적 기준은 다음과 같습니다:
워크플로가 미션 크리티컬이라면 V4-Pro로 시작하세요.
워크플로가 볼륨 중심이고 지연 시간에 민감하다면 V4-Flash로 시작하세요.
기존 시스템을 마이그레이션 중이라면 V3.2를 기준 벤치마크로 삼되, 최종 목적지는 아니어야 합니다.

DeepSeek V4가 가장 잘 맞는 영역

코딩 어시스턴트

DeepSeek 릴리스는 에이전트형 코딩 성능과 Claude Code, OpenCode 같은 도구와의 통합을 특히 강조합니다. 이는 V4가 코드 리뷰 코파일럿, 리포지토리 규모 리팩터링 어시스턴트, 여러 턴에 걸친 긴 작업 상태를 기억해야 하는 개발자 지향 에이전트에 특히 매력적임을 의미합니다.

장문서 분석

1M 토큰 컨텍스트 윈도우가 헤드라인 기능이지만, 진짜 가치는 그것이 열어 주는 가능성입니다. 장문 계약서, 실사 자료 묶음, 인시던트 로그, 지원 위키, 내부 지식 베이스를 잘게 쪼개지 않고도 처리할 수 있습니다. DeepSeek 문서는 초고(超高) 컨텍스트 효율과 계산/메모리 비용 절감을 중심에 두고 이번 릴리스를 설명합니다.

에이전트형 워크플로

제품이 도구 호출, 다단계 계획, 연쇄 액션을 사용한다면, V4는 범용 대화 모델보다 훨씬 흥미롭습니다. DeepSeek에 따르면 두 V4 변형 모두 도구 호출과 사고 모드를 지원하며, 프리뷰 릴리스는 V4가 에이전트 역량에 맞춰 최적화되었음을 밝힙니다.

검색, 리서치, 지원 시스템

검색 중심 리서치 도구나 고객 지원 시스템을 만드는 팀은 회상 능력과 구조화가 모두 필요합니다. DeepSeek의 JSON 출력과 긴 출력 길이 지원은, 짧은 대화식 답변이 아닌 안정적이고 구조화된 응답이 사용자 경험의 핵심인 시스템에서 V4를 설득력 있는 선택지로 만듭니다.

프로덕션에서 DeepSeek-V4 API 사용 모범 사례

첫째, 습관이 아니라 워크로드로 모델을 선택하세요. V4-Flash는 장문서 파싱, 고처리량 어시스턴트, 빠른 에이전트 루프에 적합합니다. 더 어려운 추론, 풍부한 지식, 복잡한 코딩/리서치 워크플로에서 더 신뢰도 높은 성능이 필요하다면 V4-Pro를 사용하세요. DeepSeek의 프리뷰 노트와 서드파티 모델 페이지 모두 이 방향을 가리킵니다.

둘째, 1M 토큰 컨텍스트 윈도우를 중심으로 설계하되, 더 많은 컨텍스트가 항상 더 나은 답을 의미하지는 않는다는 점을 잊지 마세요. 계약, 코드베이스, 리서치 묶음, 지원 지식 베이스처럼 큰 컨텍스트가 유용한 영역에서도, 좋은 검색, 청킹, 요약 설계 규율은 여전히 중요합니다. DeepSeek는 V4를 장문맥 효율에 맞췄으며, 1M 컨텍스트가 공식 서비스 전반의 기본값이라고 밝힙니다.

셋째, 프롬프트를 구조화하세요. V4는 JSON 출력과 도구 호출을 지원하므로, 추출·분류·문서 선별, 에이전트 라우팅, 코드 지원 같은 워크플로에 적합합니다. 긴 컨텍스트와 명시적 추론이 가장 빛나는 영역입니다.

넷째, 마이그레이션 일정을 면밀히 관리하세요. 스택이 아직 deepseek-chat 또는 deepseek-reasoner를 호출한다면 지금 업그레이드 경로를 계획해야 합니다. DeepSeek는 이러한 레거시 이름이 2026-07-24에 사용 중단되며, 현재는 호환성을 위해 V4-Flash 모드에 매핑된다고 명시합니다.

피해야 할 일반적인 실수

V4를 범용 챗 모델처럼 취급하기

가장 흔한 실수는 DeepSeek V4를 일반 Q&A 봇처럼만 사용하고 멈추는 것입니다. 그러면 성능 잠재력을 놓치게 됩니다. 이번 릴리스의 핵심은 추론·코딩·도구·장문맥 활용입니다. 이 역량을 쓰지 않는다면, 사용하지도 않을 헤드룸에 비용을 지불하는 셈입니다.

컨텍스트 한계와 사고 모드 무시하기

또 다른 실수는 “1M 컨텍스트”라는 말만 보고 프롬프트 설계를 무시하는 것입니다. 여전히 깔끔한 구조, 관련성 필터링, 합리적 메모리 전략이 필요합니다. DeepSeek는 사고 모드와 비사고 모드를 모두 지원하므로, 언제 더 많은 토큰을 써서 깊이 추론할지, 언제 빠르게 답할지 앱이 의도적으로 결정해야 합니다.

레거시 모델명에서의 늦은 마이그레이션

DeepSeek는 deepseek-chat과 deepseek-reasoner가 2026-07-24에 사용 중단된다고 이미 발표했습니다. 제품이 아직 해당 이름을 하드코딩하고 있다면, 마이그레이션 부채는 이제 이론이 아니라 일정표 위의 항목입니다.

도구 호출, JSON 출력, 에이전트 워크플로

DeepSeek-V4는 도구 호출과 JSON 출력을 지원하므로, 단순 대화를 넘어 구조화된 자동화에 적합합니다. 비사고 모드와 사고 모드 모두에서 도구 호출을 사용할 수 있어, 모델이 추론하고 도구를 호출한 뒤 새로운 정보를 반영해 응답을 계속할 수 있습니다.

에이전트 워크플로에서 특히 중요한 한 가지는, 사고 턴에 도구 호출이 포함되면 reasoning_content를 이후 요청에 완전히 전달해야 한다는 점입니다. 이는 사소한 주석이 아니라 프로덕션 급 구현 세부사항입니다. 에이전트 시스템은 중간 추론 상태를 잘라내거나 잘못 처리하면 자주 실패합니다.

결론

DeepSeek V4는 장문맥 추론, 코딩 보조, 에이전트형 워크플로를 중시하는 팀에게 의미 있는 업그레이드입니다. 두 가지 모델 변형, OpenAI 및 Anthropic 호환성, 1M 컨텍스트, 도구 호출 지원, 그리고 기존 DeepSeek 모델명에서의 명확한 마이그레이션 경로 등 릴리스는 실질적 무게를 갖추고 있습니다.

사용 사례가 복잡하고 지연 시간에 민감하거나 다단계 추론을 중심으로 한다면, 우선 V4-Pro를 테스트하세요. 속도·처리량·비용 규율이 우선이라면 V4-Flash가 더 좋은 출발점입니다. 그리고 여러 모델 제공자에 걸쳐 혼란 없이 더 빠르게 배포하고 싶다면, CometAPI는 액세스·관측·모델 이식성을 위한 실용적 계층으로 자리매김하고 있습니다.

Deepseek V4 API 사용 방법

DeepSeek V4 성능 벤치마크

벤치마크 표: V3.2 vs V4-Flash vs V4-Pro

숫자가 실무에서 의미하는 것