2025 жылдың тамызында қытайлық DeepSeek AI стартапы шығарылымын жариялады DeepSeek-V3.1, компания шоттарын «агент дәуіріне» алғашқы қадам ретінде орта буын жаңартуы. Жаңарту гибридті қорытынды режимін («ойлау» немесе «ойланбау» режимінде жұмыс істей алатын жалғыз модель), айтарлықтай ұзағырақ контекстік терезені және құралды шақыру мен көп сатылы агент әрекетін оқытудан кейінгі мақсатты жақсартуларды ұсынады.
DeepSeek-V3.1 дегеніміз не және ол неге маңызды?
DeepSeek-V3.1 - DeepSeek-тің V3 сериясының ең соңғы өндірістік деңгейдегі жаңартуы. Жоғары деңгейде бұл DeepSeek пайдаланушыға көрінетін екі жұмыс режимін қолдау үшін кейін оқытқан және кеңейтілген гибридті MoE тіл үлгілері тобы (V3 желісі), Сіз екі негізгі нұсқаны таба аласыз: DeepSeek-V3.1-Base және толық DeepSeek-V3.1:
- Ойланбау (терең ізденіс): жылдамдық пен сөйлесуді пайдалану үшін оңтайландырылған сөйлесуді аяқтаудың стандартты режимі.
- Ойлау (терең ізденуші): құрылымдық, көп сатылы пайымдауға және құрал/агент оркестріне басымдық беретін агенттік пайымдау режимі.
Шығарылым үш көрінетін жақсартуға назар аударады: кідіріс пен мүмкіндікті теңестіретін гибридті қорытынды құбыры, құралды шақыру/агентті басқарудың ақылдылығы және айтарлықтай кеңейтілген мәтінмәндік терезе (128K таңбалауыш ретінде жарнамаланады).
Неліктен маңызды? DeepSeek-V3.1 тиімді кең ауқымды ТМ архитектураларын құрал примитивтерімен және өте ұзын мәтінмәндік терезелермен біріктірудің кең салалық трендін жалғастырады. Бұл комбинация кәсіпорын агенттері, іздеу-плюс негізделген жұмыс процестері, ұзақ құжатты қорытындылау және құралға негізделген автоматтандыру үшін маңызды, мұнда өткізу қабілеті де, сыртқы құралдарға «шақыру» мүмкіндігі де қажет.
DeepSeek-V3.1 DeepSeek-тің алдыңғы шығарылымдарынан айырмашылығы неде?
Гибридті қорытынды: бір модель, екі жұмыс режимі
Архитектуралық өзгерістердің тақырыбы гибридті қорытынды. DeepSeek V3.1 нұсқасын чат үлгісін немесе UI ауыстырып-қосқышын өзгерту арқылы таңдауға болатын бір үлгі данасында «ойлау» режимін де, «ойланбау» режимін де қолдайтын ретінде сипаттайды (DeepSeek «DeepThink» түймесі). Іс жүзінде бұл модельге ішкі пайымдау іздерін (ойлар тізбегі стилі агентінің жұмыс үрдістері үшін пайдалы) жасауға немесе аралық пайымдау таңбалауыштарын көрсетпей тікелей жауап беруге нұсқау берілуі мүмкін дегенді білдіреді — әзірлеушінің қажеттіліктеріне байланысты. DeepSeek мұны қосымша агенттік жұмыс процестеріне апаратын жол ретінде ұсынады, сонымен бірге қолданбаларға кідіріс/мәліметтік сәйкестіктерді таңдауға мүмкіндік береді.
Үлкенірек контекстік терезе және таңбалауыш примитивтері
Ресми шығарылым жазбалары туралы есеп a әлдеқайда үлкен контекстік терезе V3.1-де; қауымдастық тестілеуі және компанияның хабарламалары кеңейтілген контекстті қояды 128 мың токен кейбір орналастырылған нұсқалар үшін айтарлықтай ұзағырақ сөйлесулерді, көп құжатты негіздеуді немесе ұзақ код негіздерін бір сеансқа беруге мүмкіндік береді. Мұны толықтыра отырып, DeepSeek бірнеше арнайы басқару белгілерін (мысалы <|search_begin|>/<|search_end|>, <think> / </think>) құрал шақыруларын құрылымдауға және ішкі «ойлау» сегменттерін бөлуге арналған — сыртқы құралдармен үйлестіруді жеңілдететін дизайн үлгісі.
Жетілдірілген агент/құрал қабілеттері және кешігуді жақсарту
DeepSeek V3.1 пайдасын көрсетеді оқудан кейінгі оңтайландыру құралды шақыруға және көп сатылы агент тапсырмаларына бағытталған: модель алдыңғы DeepSeek R1 құрастыруларына қарағанда «ойлау» режимінде жауаптарға жылдамырақ жетеді және сыртқы API интерфейстерін шақырғанда немесе көп сатылы жоспарларды орындағанда сенімдірек болады деп айтылады. Бұл позициялау - жылдамырақ, бірақ агентке қабілетті қорытынды - көмекшілерді, автоматтандыруды немесе агент жұмыс үрдісін құру үшін командалар үшін нақты өнімді дифференциатор.
DeepSeek-V3.1 артындағы архитектура қандай?
DeepSeek-V3.1 DeepSeek-V3 отбасының негізгі зерттеулеріне негізделген: a Сарапшылар қоспасы (ММ) тиімділік пен ауқымдылыққа арналған архитектуралық инновациялар жиынтығы бар магистраль. DeepSeek-V3 (негізгі отбасы) үшін жалпыға ортақ техникалық есеп сипаттайды:
- Жүздеген миллиард жалпы параметрлері бар және одан да кішірек болатын үлкен ТМ дизайны белсендірілген әр таңбалауыш үшін параметр саны (үлгі картасы әр токенге шамамен 671В белсендірілген 37В жалпы параметрлерді көрсетеді).
- Көп басты жасырын назар аудару (MLA) және сыйымдылықты сақтай отырып, қорытынды құнын төмендететін реттелетін DeepSeekMoE бағыттау және масштабтау тәсілдері.
- Көмекші жүктемені теңестіру жоғалту шарттарына қажеттілікті жояды және өткізу қабілеттілігі мен реттілік модельдеуді жақсарту үшін көп таңбалауышты болжау мақсаттарын қабылдайтын оқыту мақсаттары мен жүктемені теңестіру стратегиялары.
Неліктен MoE + MLA?
Сарапшылар қоспасы модельге жоғары теориялық параметрлерді сақтауға мүмкіндік береді, бұл ретте тек бір таңбалауыш үшін сарапшылардың ішкі жиынын белсендіреді — бұл әрбір токен бойынша есептеуді азайтады. MLA - DeepSeek-тің назар аудару нұсқасы, ол модельге көптеген сарапшылар мен ұзақ контексттерде назар аудару операцияларын тиімді масштабтауға көмектеседі. Бұл таңдаулар бірге көптеген орналастырулар үшін пайдалы қорытынды шығындарын сақтай отырып, өте үлкен бақылау нүктелерін оқытуға және оларға қызмет көрсетуге мүмкіндік береді.
DeepSeek-V3.1 эталондар мен нақты әлем сынақтарында қалай жұмыс істейді?
V3.1 қалай салыстырады, сөзбен
- V3 (0324) үстінде: V3.1 - әсіресе кодтау және агенттік тапсырмалардағы нақты жаңарту. Мысалы: LiveCodeBench бастап секіреді 43.0 56.4 → XNUMX XNUMX (ойламау) және → 74.8 (ойлау); Айдер-Полиглот -дан 55.1 → 68.4 / 76.3.
- R1-0528 қарсы: R1 күшті салыстыру нүктесі болып қала береді, бірақ V3.1-Ойлау жиі R1-0528-ге тең немесе асады (AIME/HMMT, LiveCodeBench), сонымен қатар аз кідіріспен пайдалану үшін ойланбайтын жолды ұсынады.
- Жалпы білім (MMLU нұсқалары): V3.1 слоттары «ойлау» қарастырылған кезде R1-0528-ден сәл төмен, бірақ ескі V3-тен жоғары.
Жалпы білім және академиялық
| Эталон (метрика) | V3.1-Ойламау | V3 (0324) | V3.1-Ойлау | R1-0528 |
|---|---|---|---|---|
| MMLU-Редукс (Нақты сәйкестік) | 91.8 | 90.5 | 93.7 | 93.4 |
| MMLU-Pro (Нақты сәйкестік) | 83.7 | 81.2 | 84.8 | 85.0 |
| GPQA-Гауһар (@1 өту) | 74.9 | 68.4 | 80.1 | 81.0 |
Бұл нені білдіреді: V3.1 білім/академиялық тапсырмалар бойынша V3-тен жақсартады; «Ойлау» қиын ғылым сұрақтары бойынша R1 арасындағы алшақтықты қысқартады (GPQA-Diamond).
Кодтау (агент емес)
| Эталон (метрика) | V3.1-Ойламау | V3 (0324) | V3.1-Ойлау | R1-0528 |
|---|---|---|---|---|
| LiveCodeBench (2408–2505) (@1 өту) | 56.4 | 43.0 | 74.8 | 73.3 |
| Айдер-Полиглот (дәлдік) | 68.4 | 55.1 | 76.3 | 71.6 |
| Codeforces-Div1 (Рейтинг) | - | - | 2091 | 1930 |
Ескертулер:
- LiveCodeBench (2408–2505) жиынтық терезені білдіреді (2024 ж. тамыз→ 2025 ж. мамыр). Higher Pass@1 әр түрлі кодтау тапсырмаларында күштірек бірінші әрекеттің дұрыстығын көрсетеді.
- Айдер-Полиглот көптеген тілдерде көмекші стиліндегі кодты өңдеуді имитациялайды; V3.1-Ойлау жиынды басқарады, V3.1-Ойламау V3 (0324) бойынша айтарлықтай секіріс.
- Үлгі картасы көрсетіледі V3 (0324) 55.1% Aider-де — сол винтажға арналған Айдердің жалпы көшбасшылар тақтасындағы жазбасына сәйкес. (V3.1 жоғары ұпайлары үлгі картасында жаңа болып табылады.)
Кодтау (агент тапсырмалары)
| Эталон (метрика) | V3.1-Ойламау | V3 (0324) | V3.1-Ойлау | R1-0528 |
|---|---|---|---|---|
| SWE расталған (Агент режимі) | 66.0 | 45.4 | - | 44.6 |
| SWE-стендтік Көптілді (Агент режимі) | 54.5 | 29.3 | - | 30.5 |
| Терминал-орындық (Терминус 1 жақтауы) | 31.3 | 13.3 | - | 5.7 |
Маңызды ескерту: Бұлар DeepSeek ішкі құрылымдарын қолданатын агент бағалаулары (құралдау, көп сатылы орындау), таза келесі токенді декодтау сынақтары емес. Олар «LLM + оркестрлік» мүмкіндігін алады. Бұларды ретінде қарастырыңыз жүйе нәтижелер (қайта шығару нақты агент стекіне және параметрлерге байланысты болуы мүмкін).
Математика және бәсекелестік пайымдау
| Эталон (метрика) | V3.1-Ойламау | V3 (0324) | V3.1-Ойлау | R1-0528 |
|---|---|---|---|---|
| AIME 2024 (@1 өту) | 66.3 | 59.4 | 93.1 | 91.4 |
| AIME 2025 (@1 өту) | 49.8 | 51.3 | 88.4 | 87.5 |
| HMMT 2025 (@1 өту) | 33.5 | 29.2 | 84.2 | 79.4 |
Ала кету: «Ойлау» режимінің жетектері өте үлкен математикалық сайыс жиындарында лифттер — V3.1-Есептелген жүгірулерде AIME/HMMT бойынша R1-0528-ден өткен ойлау жиектері.
Іздеу кеңейтілген / «агенттік» QA
| Эталон (метрика) | V3.1-Ойламау | V3 (0324) | V3.1-Ойлау | R1-0528 |
|---|---|---|---|---|
| BrowseComp | - | - | 30.0 | 8.9 |
| BrowseComp_zh | - | - | 49.2 | 35.7 |
| Адамзаттың соңғы емтиханы (Python + іздеу) | - | - | 29.8 | 24.8 |
| Қарапайым QA | - | - | 93.4 | 92.3 |
| Адамзаттың соңғы емтиханы (тек мәтіндік) | - | - | 15.9 | 17.7 |
Ескерту: DeepSeek іздеу агентінің нәтижелері оның ішкі іздеу құрылымын (коммерциялық іздеу API + бетті сүзу, 128K контекст) пайдаланатынын айтады. Мұнда әдістеме маңызды; көбейту ұқсас құралдарды қажет етеді.
Қандай шектеулер мен алдағы жол бар?
DeepSeek-V3.1 - маңызды инженерлік және өнім қадамы: ол ұзақ мәтінмәндік оқытуды, гибридті үлгілерді және ТМ архитектурасын кеңінен қолдануға болатын бақылау нүктесіне біріктіреді. Дегенмен, шектеулер сақталады:
- Нақты әлемдегі агенттік қауіпсіздік, ұзақ контекстті қорытындылаудағы галлюцинация және қарсыластық жедел мінез-құлық әлі де жүйе деңгейіндегі азайтуды қажет етеді.
- Эталондар ынталандырады, бірақ біркелкі емес: өнімділік доменге, тілге және бағалау жиынтығына байланысты өзгереді; тәуелсіз растау қажет.
- Геосаяси және жеткізу тізбегінің факторлары — аппараттық құралдардың қолжетімділігі және чиптің үйлесімділігі — бұрын DeepSeek кестесіне әсер еткен және тұтынушылардың масштабта қалай орналастыруына әсер етуі мүмкін.
CometAPI арқылы жұмысқа кірісу
CometAPI – OpenAI GPT сериялары, Google Gemini, Anthropic's Claude, Midjourney, Suno және т.б. сияқты жетекші провайдерлердің 500-ден астам AI үлгілерін бір, әзірлеушілерге ыңғайлы интерфейске біріктіретін бірыңғай API платформасы. Тұрақты аутентификацияны, сұрауды пішімдеуді және жауаптарды өңдеуді ұсына отырып, CometAPI қолданбаларыңызға AI мүмкіндіктерін біріктіруді айтарлықтай жеңілдетеді. Чат-боттарды, кескін генераторларын, музыкалық композиторларды немесе деректерге негізделген аналитикалық құбырларды құрастырып жатсаңыз да, CometAPI сізге AI экожүйесіндегі соңғы жетістіктерге қол жеткізе отырып, жылдамырақ қайталауға, шығындарды басқаруға және жеткізуші-агностикалық күйде қалуға мүмкіндік береді.
Әзірлеушілер қол жеткізе алады DeepSeek R1(deepseek-r1-0528) және DeepSeek-V3.1 арқылы CometAPI, тізімдегі соңғы үлгілердің нұсқасы мақаланың жарияланған күнінен бастап берілген. Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз. CometAPI біріктіруге көмектесу үшін ресми бағадан әлдеқайда төмен баға ұсыныңыз.
қорытынды
DeepSeek-V3.1 прагматикалық, инженерлік бағыттағы жаңартуды ұсынады: үлкенірек контекстік терезе, гибридті ойлау/ойланбайтын қорытынды, жақсартылған құралдар әрекеттесуі және OpenAI-үйлесімді API оны команда құру үшін тартымды нұсқа етеді. агенттік көмекшілер, ұзақ мәтінмәндік қолданбалар және арзан кодқа бағытталған жұмыс үрдістері.
