W sierpniu 2025 r. chiński startup zajmujący się sztuczną inteligencją DeepSeek ogłosił wydanie DeepSeek-V3.1, modernizacja średniej generacji, którą firma określa jako pierwszy krok „w kierunku ery agentów”. Aktualizacja wprowadza hybrydowy tryb wnioskowania (pojedynczy model, który może działać w trybie „myślącym” lub „niemyślącym”), znacznie dłuższe okno kontekstowe oraz ukierunkowane ulepszenia po szkoleniu w zakresie wywoływania narzędzi i wieloetapowego zachowania agenta.
Czym jest DeepSeek-V3.1 i dlaczego jest to takie ważne?
DeepSeek-V3.1 to najnowsza aktualizacja produkcyjna serii DeepSeek V3. Ogólnie rzecz biorąc, jest to hybrydowa rodzina modeli językowych MoE (linia V3), którą DeepSeek po przeszkoleniu rozszerzył o obsługę dwóch widocznych dla użytkownika trybów działania. Dostępne są dwie główne wersje: DeepSeek-V3.1-Base i pełna wersja DeepSeek-V3.1:
- Bezmyślność (deepseek-chat): standardowy tryb realizacji czatu zoptymalizowany pod kątem szybkości i możliwości prowadzenia konwersacji.
- Myślenie (głęboko poszukujące rozumu): tryb rozumowania agentowego, który priorytetowo traktuje ustrukturyzowane, wieloetapowe rozumowanie oraz orkiestrację narzędzi/agentów.
Wydanie koncentruje się na trzech widocznych usprawnieniach: hybrydowym procesie wnioskowania, który równoważy opóźnienia i możliwości, inteligentniejszym wywoływaniu narzędzi/organizacji agentów oraz znacznie rozszerzonym oknie kontekstowym (reklamowanym jako 128 tys. tokenów).
Dlaczego jest to ważne: DeepSeek-V3.1 kontynuuje szerszy trend branżowy polegający na łączeniu wydajnych, wielkoskalowych architektur MoE z prymitywami narzędziowymi i bardzo długimi oknami kontekstowymi. To połączenie jest ważne dla agentów korporacyjnych, przepływów pracy opartych na wyszukiwaniu i rozumowaniu, podsumowań długich dokumentów oraz automatyzacji opartej na narzędziach, gdzie wymagana jest zarówno przepustowość, jak i możliwość deterministycznego „wywoływania” narzędzi zewnętrznych.
Czym DeepSeek-V3.1 różni się od poprzednich wersji DeepSeek?
Wnioskowanie hybrydowe: jeden model, dwa tryby działania
Główną zmianą architektoniczną jest wnioskowanie hybrydoweDeepSeek opisuje wersję 3.1 jako obsługującą zarówno tryb „myślenia”, jak i tryb „bez myślenia” w ramach tej samej instancji modelu, które można wybrać poprzez zmianę szablonu czatu lub przełącznika interfejsu użytkownika (przycisk „DeepThink” w DeepSeek). W praktyce oznacza to, że model może zostać poinstruowany, aby generował wewnętrzne ślady wnioskowania (przydatne w przypadku przepływów pracy agentów opartych na łańcuchu myśli) lub reagował bezpośrednio, bez ujawniania pośrednich tokenów wnioskowania — w zależności od potrzeb programisty. DeepSeek przedstawia to jako drogę do bardziej agentowych przepływów pracy, jednocześnie pozwalając aplikacjom na wybór kompromisów między opóźnieniem a rozwlekłością.
Większe okno kontekstowe i prymitywy tokenów
Oficjalne notatki dotyczące wydania podają: znacznie większe okno kontekstowe w wersji 3.1; testy społeczności i posty firmowe umieszczają rozszerzony kontekst 128 tys. tokenów W przypadku niektórych wariantów hostowanych, umożliwiając znacznie dłuższe konwersacje, wnioskowanie wielodokumentowe lub wprowadzanie długich baz kodu do jednej sesji. Uzupełniając to, DeepSeek podobno wprowadza kilka specjalnych tokenów sterujących (na przykład <|search_begin|>/<|search_end|>, <think> / </think>) mający na celu ustrukturyzowanie wywołań narzędzi i wewnętrzne określenie segmentów „myślenia” — wzorzec projektowy, który upraszcza koordynację z narzędziami zewnętrznymi.
Udoskonalone możliwości agentów/narzędzi i skrócone czasy opóźnień
DeepSeek stwierdza, że V3.1 korzysta z optymalizacja po treningu Skoncentrowany na wywoływaniu narzędzi i wieloetapowych zadaniach agentów: model ma szybciej uzyskiwać odpowiedzi w trybie „myślenia” niż wcześniejsze wersje DeepSeek R1 oraz być bardziej niezawodny podczas wywoływania zewnętrznych interfejsów API lub wykonywania wieloetapowych planów. To pozycjonowanie – szybsze, a jednocześnie bardziej funkcjonalne wnioskowanie agentów – stanowi wyraźny wyróżnik produktu dla zespołów budujących asystentów, automatyzacje lub przepływy pracy agentów.
Jaka jest architektura DeepSeek-V3.1?
DeepSeek-V3.1 bazuje na głównych badaniach rodziny DeepSeek-V3: Mieszanina Ekspertów (MoE) szkielet z zestawem innowacji architektonicznych zaprojektowanych z myślą o wydajności i skalowalności. Publiczny raport techniczny DeepSeek-V3 (rodziny bazowej) opisuje:
- Duży projekt MoE z setkami miliardów parametrów całkowitych i mniejszym aktywowany liczba parametrów na token (karta modelu podaje łączną liczbę 671 mld parametrów, z czego około 37 mld jest aktywowanych na token).
- Wielofunkcyjna funkcja MLA (Multi-head Latent Attention) oraz niestandardowe podejście do routingu i skalowania DeepSeekMoE, które zmniejszają koszty wnioskowania przy jednoczesnym zachowaniu przepustowości.
- Cele szkolenia i strategie równoważenia obciążenia, które eliminują potrzebę stosowania pomocniczych warunków strat równoważenia obciążenia i przyjmują cele przewidywania wielu tokenów w celu poprawy przepustowości i modelowania sekwencji.
Dlaczego MoE + MLA?
Model Mixture-of-Experts pozwala modelowi utrzymać wysoką teoretyczną liczbę parametrów, aktywując jednocześnie tylko podzbiór ekspertów na token – co zmniejsza nakłady obliczeniowe na token. MLA to wariant DeepSeek dotyczący uwagi, który pomaga modelowi efektywnie skalować operacje uwagi dla wielu ekspertów i długich kontekstów. Te rozwiązania umożliwiają trenowanie i obsługę bardzo dużych punktów kontrolnych, jednocześnie utrzymując użyteczne koszty wnioskowania w wielu wdrożeniach.
Jak DeepSeek-V3.1 sprawdza się w testach porównawczych i rzeczywistych?
Porównanie wersji V3.1, w słowach
- Ponad V3 (0324): Wersja 3.1 to wyraźna aktualizacja pod każdym względem – szczególnie w zakresie kodowania i zadań agentowych. Przykład: LiveCodeBench skacze z 43.0 → 56.4 (niemyślenie) i → 74.8 (myślący); Aider-Poliglota od 55.1 → 68.4 / 76.3.
- W porównaniu z R1-0528: R1 pozostaje silnym punktem porównania „dostrojonym do rozumowania”, ale V3.1-Częste myślenie jest równe lub przekracza R1-0528 (AIME/HMMT, LiveCodeBench), oferując jednocześnie niewymagającą myślenia metodę użytkowania z niskim opóźnieniem.
- Wiedza ogólna (warianty MMLU): Wersja 3.1 plasuje się tuż poniżej R1-0528, gdy rozważamy kwestię „myślenia”, ale wyżej od starszej wersji V3.
Wiedza ogólna i akademicka
| Benchmark (metryka) | Wersja 3.1-Niemyślenie | Wersja 3 (0324) | Wersja 3.1-Myślenie | R1-0528 |
|---|---|---|---|---|
| MMLU-Redux (Dokładne dopasowanie) | 91.8 | 90.5 | 93.7 | 93.4 |
| MMLU-Pro (Dokładne dopasowanie) | 83.7 | 81.2 | 84.8 | 85.0 |
| GPQA-diament (Pass@1) | 74.9 | 68.4 | 80.1 | 81.0 |
Co to oznacza: Wersja 3.1 wypada lepiej niż wersja 3 w przypadku zadań z zakresu wiedzy/zadań akademickich; „myślenie” ustępuje wersji R1 w przypadku trudnych pytań z zakresu nauk ścisłych (GPQA-Diamond).
Kodowanie (bez agenta)
| Benchmark (metryka) | Wersja 3.1-Niemyślenie | Wersja 3 (0324) | Wersja 3.1-Myślenie | R1-0528 |
|---|---|---|---|---|
| LiveCodeBench (2408–2505) (Pass@1) | 56.4 | 43.0 | 74.8 | 73.3 |
| Aider-Poliglota (Dokładność) | 68.4 | 55.1 | 76.3 | 71.6 |
| Codeforces-Div1 (Ocena) | - | - | 2091 | 1930 |
Uwagi:
- LiveCodeBench (2408–2505) Oznacza okno zagregowane (sierpień 2024 → maj 2025). Wyższy wynik Pass@1 odzwierciedla wyższą poprawność pierwszego podejścia w przypadku zróżnicowanych zadań kodowania.
- Aider-Poliglota symuluje edycję kodu w stylu asystenta w wielu językach; V3.1-Thinking jest liderem zestawu, V3.1-NonThinking jest dużym krokiem naprzód w stosunku do V3 (0324).
- Karta modelu pokazuje V3 (0324) przy 55.1% na Aiderze — zgodnie z publicznym wpisem Aidera w tabeli wyników dla tego rocznika. (Wyższe wyniki wersji 3.1 są nowością na karcie modelu.)
Kodowanie (zadania agenta)
| Benchmark (metryka) | Wersja 3.1-Niemyślenie | Wersja 3 (0324) | Wersja 3.1-Myślenie | R1-0528 |
|---|---|---|---|---|
| Zweryfikowano SWE (Tryb agenta) | 66.0 | 45.4 | - | 44.6 |
| SWE-bench wielojęzyczny (Tryb agenta) | 54.5 | 29.3 | - | 30.5 |
| Ławka terminalna (Struktura Terminus 1) | 31.3 | 13.3 | - | 5.7 |
Ważne zastrzeżenie: To są oceny agentów przy użyciu wewnętrznych ram DeepSeek (narzędzia, wykonywanie wieloetapowe), a nie czyste testy dekodowania następnego tokena. Przechwytują one możliwości „LLM + orkiestracja”. Traktuj je jako system wyniki (możliwość powtarzania może zależeć od konkretnego stosu agentów i ustawień).
Rozumowanie matematyczne i konkursowe
| Benchmark (metryka) | Wersja 3.1-Niemyślenie | Wersja 3 (0324) | Wersja 3.1-Myślenie | R1-0528 |
|---|---|---|---|---|
| AIM 2024 (Pass@1) | 66.3 | 59.4 | 93.1 | 91.4 |
| AIM 2025 (Pass@1) | 49.8 | 51.3 | 88.4 | 87.5 |
| HMMT 2025 (Pass@1) | 33.5 | 29.2 | 84.2 | 79.4 |
Na wynos: Napędy w trybie „myślenia” bardzo duży podnoszenia w zestawach konkursów matematycznych — V3.1-Thinking wyprzedza R1-0528 w AIME/HMMT w zgłoszonych przebiegach.
Kontrola jakości z wykorzystaniem wyszukiwania rozszerzonego / „agentowego”
| Benchmark (metryka) | Wersja 3.1-Niemyślenie | Wersja 3 (0324) | Wersja 3.1-Myślenie | R1-0528 |
|---|---|---|---|---|
| PrzeglądajComp | - | - | 30.0 | 8.9 |
| PrzeglądajComp_zh | - | - | 49.2 | 35.7 |
| Ostatni egzamin ludzkości (Python + wyszukiwanie) | - | - | 29.8 | 24.8 |
| ProsteQA | - | - | 93.4 | 92.3 |
| Ostatni egzamin ludzkości (tylko tekst) | - | - | 15.9 | 17.7 |
Uwaga: DeepSeek twierdzi, że wyniki wyszukiwania agenta wyszukiwania korzystają z jego wewnętrznego frameworka wyszukiwania (komercyjne API wyszukiwania + filtrowanie stron, kontekst 128 KB). Metodologia ma tu znaczenie; reprodukcja wymaga podobnych narzędzi.
Jakie są ograniczenia i droga przed nami?
DeepSeek-V3.1 to ważny krok inżynieryjny i produktowy: łączy trening długokontekstowy, szablony hybrydowe i architekturę MoE w jeden, powszechnie używany punkt kontrolny. Nadal jednak istnieją pewne ograniczenia:
- Bezpieczeństwo agentów w świecie rzeczywistym, halucynacje w podsumowaniach długoterminowego kontekstu i natychmiastowe zachowania antagonistyczne nadal wymagają działań łagodzących na poziomie systemowym.
- Wyniki testów są zachęcające, ale niejednolite: wydajność różni się w zależności od dziedziny, języka i zestawu narzędzi ewaluacyjnych; konieczna jest niezależna walidacja.
- Czynniki geopolityczne i związane z łańcuchem dostaw — dostępność sprzętu i kompatybilność układów scalonych — w przeszłości wpływały na harmonogram DeepSeek i mogą mieć wpływ na sposób, w jaki klienci wdrażają rozwiązania na dużą skalę.
Rozpoczęcie pracy za pomocą CometAPI
CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.
Deweloperzy mogą uzyskać dostęp Głębokie wyszukiwanie R1(deepseek-r1-0528) i DeepSeek-V3.1 przez Interfejs API CometNajnowsze wersje modeli podane są na dzień publikacji artykułu. Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. Interfejs API Comet zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.
Podsumowanie
DeepSeek-V3.1 to pragmatyczna, inżynieryjnie zaawansowana aktualizacja: większe okno kontekstowe, hybrydowe wnioskowanie oparte na myśleniu i braku myślenia, ulepszone interakcje narzędzi i interfejs API zgodny z OpenAI sprawiają, że jest to atrakcyjna opcja dla zespołów tworzących asystenci agentów, aplikacje o długim kontekście i niedrogie przepływy pracy zorientowane na kod.
