DeepSeek V4 模型启动最终测试,编程能力或超 Claude 和 GPT
技术· 3 分钟阅读1 阅读
中国 AI 初创公司 DeepSeek 计划于 2026 年 2 月中旬发布下一代 V4 模型。内部测试显示,该模型在编程任务上表现优于 Anthropic 的 Claude 和 OpenAI 的 GPT 系列。V4 引入了流形约束超连接和 Engram 条件记忆架构等创新技术,旨在应对中国硬件限制,并可能以 Apache 2.0 许可证开源发布。
据 The Information 和路透社报道,中国 AI 初创公司 DeepSeek 正准备在 2026 年 2 月中旬发布其下一代 V4 模型。内部测试显示,该旗舰系统在编程任务方面的表现优于包括 Anthropic 的 Claude 和 OpenAI 的 GPT 系列在内的领先竞争对手。
预计该模型将于 2 月 17 日前后发布,恰逢农历新年庆祝活动,这与该公司去年推出 R1 模型时的战略时机选择相呼应。2 月 11 日,部分用户开始收到应用更新,将模型的上下文长度从 128K 扩展到 100 万个 token,分析师认为这代表着 V4 正式发布前的最终灰度测试。

V4 引入了两项突破性技术:流形约束超连接(mHC)和 Engram 条件记忆架构。mHC 系统通过使用数学约束来确保网络层间信息流的平衡,从而解决万亿参数规模下的训练不稳定问题,而 Engram 将知识检索与逻辑计算分离,实现了从超过一百万个 token 的上下文中进行高效检索。
野村证券在 2 月 10 日发布的报告中指出,这些创新对中国人工智能发展具有战略意义,称 mHC 可以弥补国产芯片的潜在不足,而 Engram 更智能的内存调度则可以规避高带宽内存容量的限制。
尽管技术上有所进步,但野村证券分析师认为 V4 不会引发与去年 V3 发布时相同的市场震荡。V3 的发布曾导致 2025 年 1 月科技股抛售规模达 1 万亿美元,其中仅一家公司市值就蒸发了 6000 亿美元。该机构评估认为,V4 的核心价值在于加速全球大型语言 AI 应用的商业化进程,并缓解全球云服务提供商的资本支出压力。
野村证券在其全球 AI 趋势跟踪报告中表示:“此次发布的意义在于,V4 可能通过创新架构进一步降低训练和推理成本,从而加速中国 AI 价值链的创新周期”。
该模型预计将拥有约 1 万亿总参数量,同时通过其混合专家架构(Mixture-of-Experts)在每个 token 处理时仅激活约 320 亿参数,目标是在 SWE-bench 编程基准测试中达到 80% 或更高的分数,且推理成本远低于西方竞争对手。DeepSeek 预计将以 Apache 2.0 许可证开源发布 V4 版本,这可能使其成为可免费获取的最强大编程模型之一。
想了解 AI 如何助力您的企业?
免费获取企业 AI 成熟度诊断报告,发现转型机会
//
24小时热榜
免费获取 AI 落地指南
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断

