Specyfikacja techniczna
| Element | DeepSeek-V4-Pro |
|---|---|
| Dostawca | DeepSeek |
| Nazwa modelu API | deepseek-v4-pro |
| Podstawowe adresy URL | https://api.deepseek.com and https://api.deepseek.com/anthropic |
| Typ wejścia | Text |
| Typ wyjścia | Text, tool calls, reasoning output |
| Długość kontekstu | 1,000,000 tokens |
| Maksymalna długość wyjścia | 384,000 tokens |
| Tryby rozumowania | Non-thinking, thinking (default) |
| Domyślne ustawienia agenta/kodowania | reasoning_effort can be set as high; complex agent requests may use max |
| Obsługiwane funkcje | JSON Output, Tool Calls, Chat Prefix Completion (beta), FIM Completion (beta in non-thinking mode) |
| Wydanie z lokalnymi/otwartymi wagami | 1.6T total parameters, 49B activated parameters, FP4 + FP8 mixed precision |
| Licencja (karta modelu) | MIT |
| Referencyjna karta modelu | DeepSeek-V4-Pro preview on Hugging Face |
Czym jest DeepSeek-V4-Pro?
DeepSeek-V4-Pro to mocniejszy członek rodziny DeepSeek V4 w wersji preview. Oficjalna karta modelu opisuje go jako model MoE z 1.6T parametrów i 49B aktywowanych parametrów oraz oknem kontekstu o rozmiarze miliona tokenów, przeznaczony do długoterminowej pracy z wiedzą, generowania kodu i zadań agentowych. Dokumentacja API udostępnia go przez standardowy interfejs chat-completions DeepSeek i obsługuje zarówno styl SDK OpenAI, jak i Anthropic.
Główne funkcje
- Milion-tokenowy kontekst: DeepSeek dokumentuje długość kontekstu 1M tokenów, co sprawia, że model nadaje się do bardzo dużych zbiorów dokumentów, repozytoriów i wieloetapowych sesji agentów.
- Dwa tryby rozumowania: API obsługuje tryby non-thinking i thinking; thinking jest domyślny, a dokumentacja zauważa, że złożone żądania agentowe, takie jak Claude Code lub OpenCode, mogą automatycznie używać
maxeffort. - Obsługa wywołań narzędzi: tryb thinking w DeepSeek wspiera wywołania narzędzi, co jest ważne dla agentów wymagających wyszukiwania, operacji na plikach lub funkcji zewnętrznych.
- Wydajność przy długim kontekście: karta modelu mówi, że V4 używa hybrydowego mechanizmu uwagi z Compressed Sparse Attention i Heavily Compressed Attention, aby zmniejszyć koszty obliczeń i pamięci podręcznej KV dla długiego kontekstu względem V3.2. citeturn980363view2
- Skoncentrowany na kodowaniu i rozumowaniu: DeepSeek twierdzi, że tryb rozumowania V4-Pro-Max poprawia wyniki w benchmarkach programistycznych i zmniejsza znaczną część luki względem wiodących modeli zamkniętych w zadaniach rozumowania i agentowych. citeturn980363view2
- Elastyczność SDK: Można uzyskać dostęp poprzez standardowe, zgodne z OpenAI, chat completions lub przez endpoint zgodny z Anthropic dla przepływów zorientowanych na narzędzia.
Wydajność w benchmarkach
Oficjalna karta modelu DeepSeek podaje następujące wyniki ewaluacji dla rodziny modeli bazowych oraz dla porównania V4-Pro-Max. W tabeli modeli bazowych V4-Pro uzyskuje wynik wyższy niż V3.2-Base w kilku benchmarkach wiedzy i długiego kontekstu, m.in. MMLU-Pro (73.5 vs. 65.5), FACTS Parametric (62.6 vs. 27.1) oraz LongBench-V2 (51.5 vs. 40.2).
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| FACTS Parametric (EM) | 27.1 | 33.9 | 62.6 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
Ta sama karta modelu pokazuje również, że V4-Pro-Max pozostaje konkurencyjny względem czołowych modeli na wybranych zadaniach. Na przykład osiąga 87.5 na MMLU-Pro, 57.9 na SimpleQA-Verified, 90.1 na GPQA Diamond oraz 67.9 na Terminal Bench 2.0 w opublikowanej tabeli porównawczej.
DeepSeek-V4-Pro vs DeepSeek-V4-Flash vs DeepSeek-V3.2
| Model | Najlepiej nadaje się do | Kontekst | Uwagi |
|---|---|---|---|
| DeepSeek-V4-Pro | Złożone rozumowanie, kodowanie, agenci, duże dokumenty | 1M | Największy model V4, 49B aktywowanych parametrów, najsilniejsza ogólna wydajność w serii. citeturn980363view2turn980363view0 |
| DeepSeek-V4-Flash | Szybsze, lżejsze zastosowania ogólne | 1M | Mniejszy model 284B/13B, nadal obsługuje thinking i wywołania narzędzi. citeturn980363view2turn980363view0 |
| DeepSeek-V3.2 | Bazowy model poprzedniej generacji dla długiego kontekstu | 128K w wcześniejszych dokumentach API; V4 używa innego projektu kontekstu 1M | Przydatny jako punkt odniesienia dla zysków efektywności; karta modelu V4-Pro raportuje duże redukcje FLOPs dla długiego kontekstu i pamięci podręcznej KV względem V3.2. citeturn321011view1turn980363view2 |
Najlepsze przypadki użycia
- Asystenci programistyczni w skali repozytorium i narzędzia do refaktoryzacji
- Analiza i synteza długich dokumentów
- Agenci korzystający z narzędzi, wymagający wieloetapowego rozumowania
- Przepływy wsparcia technicznego, które korzystają z długiej pamięci i ustrukturyzowanych wyników
- Zadania wiedzowe w języku chińskim i wielojęzyczne, gdzie karta modelu pokazuje silne wyniki benchmarków
Jak uzyskać dostęp i korzystać z API Deepseek v4 pro
Krok 1: Zarejestruj się, aby uzyskać klucz API
Zaloguj się do cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, najpierw się zarejestruj. Zaloguj się do swojego CometAPI console. Uzyskaj poświadczenie dostępu — klucz API interfejsu. Kliknij „Add Token” przy tokenie API w centrum osobistym, pobierz klucz tokenu: sk-xxxxx i zatwierdź.
Krok 2: Wysyłanie żądań do Deepseek v4 proAPI
Wybierz endpoint „deepseek-v4-pro”, aby wysłać żądanie do API i ustaw ciało żądania. Metodę żądania i ciało żądania znajdziesz w dokumentacji API na naszej stronie. Nasza strona zapewnia też test w Apifox dla Twojej wygody. Zamień <YOUR_API_KEY> na rzeczywisty klucz CometAPI z Twojego konta. Where to call it: [Anthropic Messages] format and [Chat] format.
Wstaw swoje pytanie lub prośbę do pola content — to na to model odpowie . Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
Krok 3: Pobierz i zweryfikuj wyniki
Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź. Po przetworzeniu API zwraca status zadania i dane wyjściowe. Włącz funkcje takie jak strumieniowanie, buforowanie promptów czy obsługa długiego kontekstu poprzez standardowe parametry.