DeepSeek V4 模型启动最终测试，编程能力或超 Claude 和 GPT

技术2026年2月12日· 3 分钟阅读1 阅读

中国 AI 初创公司 DeepSeek 计划于 2026 年 2 月中旬发布下一代 V4 模型。内部测试显示，该模型在编程任务上表现优于 Anthropic 的 Claude 和 OpenAI 的 GPT 系列。V4 引入了流形约束超连接和 Engram 条件记忆架构等创新技术，旨在应对中国硬件限制，并可能以 Apache 2.0 许可证开源发布。

据 The Information 和路透社报道，中国 AI 初创公司 DeepSeek 正准备在 2026 年 2 月中旬发布其下一代 V4 模型。内部测试显示，该旗舰系统在编程任务方面的表现优于包括 Anthropic 的 Claude 和 OpenAI 的 GPT 系列在内的领先竞争对手。

预计该模型将于 2 月 17 日前后发布，恰逢农历新年庆祝活动，这与该公司去年推出 R1 模型时的战略时机选择相呼应。2 月 11 日，部分用户开始收到应用更新，将模型的上下文长度从 128K 扩展到 100 万个 token，分析师认为这代表着 V4 正式发布前的最终灰度测试。

DeepSeek 将发布编程能力强大的 V4 AI 模型

V4 引入了两项突破性技术：流形约束超连接（mHC）和 Engram 条件记忆架构。mHC 系统通过使用数学约束来确保网络层间信息流的平衡，从而解决万亿参数规模下的训练不稳定问题，而 Engram 将知识检索与逻辑计算分离，实现了从超过一百万个 token 的上下文中进行高效检索。

野村证券在 2 月 10 日发布的报告中指出，这些创新对中国人工智能发展具有战略意义，称 mHC 可以弥补国产芯片的潜在不足，而 Engram 更智能的内存调度则可以规避高带宽内存容量的限制。

尽管技术上有所进步，但野村证券分析师认为 V4 不会引发与去年 V3 发布时相同的市场震荡。V3 的发布曾导致 2025 年 1 月科技股抛售规模达 1 万亿美元，其中仅一家公司市值就蒸发了 6000 亿美元。该机构评估认为，V4 的核心价值在于加速全球大型语言 AI 应用的商业化进程，并缓解全球云服务提供商的资本支出压力。

野村证券在其全球 AI 趋势跟踪报告中表示：“此次发布的意义在于，V4 可能通过创新架构进一步降低训练和推理成本，从而加速中国 AI 价值链的创新周期”。

该模型预计将拥有约 1 万亿总参数量，同时通过其混合专家架构（Mixture-of-Experts）在每个 token 处理时仅激活约 320 亿参数，目标是在 SWE-bench 编程基准测试中达到 80% 或更高的分数，且推理成本远低于西方竞争对手。DeepSeek 预计将以 Apache 2.0 许可证开源发布 V4 版本，这可能使其成为可免费获取的最强大编程模型之一。