2026年2月,中国 AI 创业公司 DeepSeek 推出了其在线应用和网页界面的重大更新,显示出朝着其下一代模型发布、DeepSeek V4 的推进势头。尽管该更新早于完整的 V4 模型发布,但因其在交互行为、长上下文能力以及针对未来潜力的预备性测试方面的变化,已在用户和行业观察者中引发讨论。
DeepSeek 早期的多个变体——尤以 DeepSeek V3.2 和 DeepSeek–R1 最为突出——凭借高任务性能与具成本效益的可扩展性登上全球舞台。尤其是 R1 的发布,在 2025 年初因撼动全球市场并拖累竞争对手股价表现而引发国际关注,彰显了 DeepSeek 的颠覆性潜力。
最近的 DeepSeek 更新究竟发生了什么变化?
这是哪个版本,改了什么?
最近的更新影响了 DeepSeek 在线应用和网页界面,但关键是尚未影响 API 模型。据多方消息:
- 这次应用更新最好被描述为一次 长上下文结构测试——使网页与应用用户可获得最高达 1 million token 的上下文支持。这较 DeepSeek V3.2 的 API 提供的约 ~128 K 上下文窗口是一次 显著跃升。
- 该升级提升了单次对话或任务的有效记忆,使模型能够记住并处理更多信息。据报道,这相当于先前记忆容量的 10×——对于多阶段与长时间推理而言是一项突破。
- 在版本命名层面,多数公开信号表明本次更新是一次 V4 之前的技术推进——尚非正式的 DeepSeek V4 发布,但具有明显的准备性质。
幕后:这次变化由什么驱动?
在幕后,DeepSeek 的 GitHub 代码库显示新增了带有内部标识(“MODEL1”)的内容,暗示一种区别于 V3.2 的 新模型架构。代码结构指向内存优化技术、FP8 支持增强,以及与 Nvidia 新一代 GPU 架构的兼容性——这些都是 DeepSeek V4 预期的核心组件。
此外,DeepSeek 发布了关于 “Engram” 的研究,这是一个 内存查找模块,重新思考大语言模型如何管理长上下文与关键事实。Engram 似乎定位为下一代的基础技术——可能为 DeepSeek V4 的扩展记忆能力提供支撑。
用户反馈
此次上线引发了广泛反应:
- 一方面,许多用户对上下文扩展及其在更深层交互与更复杂问题求解方面的潜力感到兴奋。
- 另一方面,相当一部分用户公开评论了语气与对话风格的变化,称回复相比以前不那么吸引人、缺乏共情,或干脆更为“冷淡”——由此引发社交平台上的热议。
这种分歧突显了 AI 部署的一条重要现实:技术能力的升级可能以意想不到的方式重塑用户体验,在最终发布前需要反复迭代打磨。
此次更新的关键特性是什么?
1. 大规模上下文扩展
在网页/应用交互中支持高达 1 million token 的上下文,使 DeepSeek 成为少数能够在单次会话中对长转录、代码库、法律文档乃至整本书进行全局、无割裂理解的模型之一。这对实际应用意义重大,从研究与写作到企业文档分析皆受益。
2. 交互风格变化
此次上线明显改变了 DeepSeek 的对话语气。许多用户指出,更新后的模型交互显得更中性或更“朴素”——例如使用“User”等通用标识而非个性化昵称,并在深度推理模式下给出更精炼的回答。这些风格转变在社交平台上引发热议,一些用户表示不适或意外。
3. 知识截断与上下文更新
应用背后的知识库已更新至 2025 年 5 月,但 API 服务仍停留在 V3.2 及其既有的知识截断。这种分化表明,DeepSeek 正在全面 V4 平台升级前试验式地进行渐进改进。
4. 为 V4 集成做准备
此次更新的一个明确战略目标,是在即将到来的 DeepSeek V4 前预先测试基础设施与用户体验。大上下文支持与记忆机制的调整,很可能作为正在研发架构的真实压力测试——帮助开发者在全面部署前评估性能、可靠性与反馈。
此次更新包含了哪些新技术特性,它们如何工作?
用户反馈
此次上线引发了广泛反应:
- 一方面,许多用户对上下文扩展及其在更深层交互与更复杂问题求解方面的潜力感到兴奋。
- 另一方面,相当一部分用户公开评论了语气与对话风格的变化,称回复相比以前不那么吸引人、缺乏共情,或干脆更为“冷淡”——由此引发社交平台上的热议。
这种分歧突显了 AI 部署的一条重要现实:技术能力的升级可能以意想不到的方式重塑用户体验,在最终发布前需要反复迭代打磨。
Engram:用于选择性召回的条件式记忆
Engram 是此次更新中的标志性理念。从概念上讲,它是嵌入于模型架构内的条件式检索机制:当输入包含与已存储的 engram 相关的线索时,网络会检索预计算的向量表示,以补充(有时甚至替代)昂贵的推理层。其宣称收益有二:一是减少对静态知识的重复计算,二是在无需重新训练完整模型的情况下,提供一种稳健的机制来更新或修补事实记忆。技术摘要与开发者预览显示,Engram 面向代码知识(库、函数签名)与跨文档的事实召回双场景。
mHC(流形约束超连接)
预览与配套技术说明中的 mHC 被描述为一种架构策略,旨在将参数交互约束在具有意义的子流形上。该约束可减少必须计算的成对激活数量,从而在训练与推理中提升计算效率。其理论是:在关键之处(与任务相关的流形)保留表达能力,同时削减其他位置的冗余计算——实质上是在相同硬件上挤出更多效用。早期描述技术味浓且颇为可期,但也带来了实现与验证方面的疑问(见下)。
DeepSeek Sparse Attention(DSA)与百万级上下文
最具体的一项主张,是通过稀疏注意力技术与动态触发逻辑的组合,支持 1M+ token 的上下文。如果在生产中落地,这将使单次推理即可覆盖整座代码库、长篇转录或多文件补丁——为代码库摘要、多文件重构、长对话代理等任务带来助益。预览材料与厂商基准报告了大上下文吞吐,并称相较部分竞品具有显著效率提升。当前阶段独立验证仍然有限。
接下来可以期待什么——这次更新对 DeepSeek v4 有何启示?
简而言之:这次公开更新既是功能增强,也是更大规模发布的演练场。行业报道与 DeepSeek 自身时间线均指向 v4 近在眼前(目标在春节档期),届时很可能整合长上下文记忆、类 Engram 的专用记忆架构,以及更强的编码与代理能力。
以下基于当前变更信号与行业预期,给出对 DeepSeek v4 可能包含内容的谨慎、循证式推测。
预期 1——原生长存记忆与索引式检索
鉴于应用的百万 token 实验以及 V3.2 对代理的明确聚焦,v4 很可能会正式化一个在会话间持久化索引知识的记忆子系统(而不仅仅是更大的瞬时上下文)。该子系统将结合:
- 基于已存嵌入的稠密检索;
- 高效切片,以平衡时延与 token 成本;
- 一层连贯性机制,将检索片段缝合进模型的内部上下文窗口。
若付诸实施,代理将无需在每次会话中重新摄取数据,就能保持持久的人格、用户偏好与丰富的项目历史。
预期 2——专项代码生成与多文件推理
v4 预计将把编码能力置于优先位置,针对开发者工作流进行模型优化与基准提升。可期待原生的多文件重构能力、更强的单元测试合成,以及能够借助沙箱化工具链运行、评估并迭代代码的工具感知型代码生成。这些正是长上下文模型解锁的典型任务。
预期 3——更强调代理安全与可验证性
鉴于外界对训练实践的关注,DeepSeek 很可能优先强化可审计性:可复现的训练日志、更清晰的溯源声明,以及在多步骤工具交互中标记幻觉或溯源缺口的强化安全缓解措施。可期待面向企业客户与研究者、让溯源可视化的产品功能。
预期 4——竞争路线图与伙伴生态
v4 的路线图将被国内外参与者视为市场信号。在对手密集上新(从主流厂商瞄准效率与移动端部署,到细分玩家加码开源模型)的背景下,DeepSeek 必须在开放性与防御力之间求取平衡。若 v4 以更低成本带来显著提升,势必加速中国及海外向低价高能模型的演进——并很可能引发更强的跨境政策审视。
结语:一支崛起中的 AI 力量
近期的 DeepSeek 更新标志着朝向更广泛 AI 智能变革迈出的重要一步。尽管公司尚未正式发布 V4,但这些预览式增强——尤其在上下文长度与交互重构方面——展现了其推动 LLM 能力前行的决心。随着 V4 临近,DeepSeek 有望成为塑造下一代大规模、低成本、高性能 AI的核心力量之一。
开发者现在可以通过 CometAPI 访问 Deepseek API。开始之前,可在 Playground 体验模型能力,并查阅 API 指南 获取详细说明。访问前,请确保已登录 CometAPI 并获取 API 密钥。CometAPI 提供远低于官方价格的方案,帮助你完成集成。
Ready to Go?→ 立即注册 Deepseek!
