DeepSeek V4 Pro：性能逼近GPT-5.2，成本仅十七分之一

产品2026年5月6日· 原作者：AccessPath 研究院· 3 分钟阅读5 阅读

DeepSeek V4 Pro在FoodTruck Bench基准测试中与GPT-5.2仅差3%，成本却只有后者的十七分之一。尽管存在高幻觉率等局限，其超高性价比仍被认为将在企业AI智能体场景中占据重要地位。

中国 AI 实验室 DeepSeek 于 4 月 24 日发布的旗舰开源模型 V4 Pro，在独立智能体商业模拟基准测试 FoodTruck Bench 上与 OpenAI 的 GPT-5.2 仅相差 3%，而每 token 的成本约为后者的十七分之一。上述结果于周一发布在该基准测试的排行榜上。

根据这一结果，V4 Pro 在 FoodTruck Bench 总榜中排名第四，位列 Claude Opus 4.6、GPT-5.2 和 Grok 4.3 之后，但两者之间的成本差距十分显著。GPT-5.2 的定价为每百万输入 token 1.75 美元、每百万输出 token 14 美元，而 DeepSeek V4 Pro 的对应价格分别为 0.435 美元和 0.87 美元——在输出量较大的智能体任务场景下，成本优势约达 17 倍。

DeepSeek V4 Pro 示意图

架构创新

V4 Pro 是一款拥有 1.6 万亿参数的混合专家（MoE）模型，每个 token 仅激活 490 亿个参数，总参数量与活跃参数量之间实现了 30:1 的压缩比。该模型采用混合注意力机制，将压缩稀疏注意力（Compressed Sparse Attention）与深度压缩注意力（Heavily Compressed Attention）相结合。在百万 token 上下文长度下，其推理所需的浮点运算量仅为前代模型 DeepSeek V3.2 的 27%，KV 缓存占用仅为其 10%。该模型以 MIT 许可证开源，并已在 Hugging Face 上发布。

已知局限性

独立评估为部分过度的乐观情绪泼了一盆冷水。CAISI 的评估发现，V4 Pro 的实际表现与约八个月前发布的原始 GPT-5 更为接近，而非 DeepSeek 自家基准测试所显示的与 GPT-5.2 相当。该模型在 AA-Omniscience 基准测试中的幻觉率高达 94%，意味着它在缺乏相关知识时，几乎总是会生成一个答案，而非选择放弃作答。DeepSeek 自身也承认，V4 在性能上"略逊于"顶尖闭源模型，差距大约相当于三到六个月的开发进度。

对企业的影响

尽管存在上述不足，业界分析人士仍认为其性价比对企业AI领域具有变革性意义。知名开发者及技术评论人 Simon Willison 指出，V4 Pro 目前是参数量最大的开源权重模型，以 1.1 万亿参数超越了 Kimi K2.6。目前已有六家 API 服务商以极具竞争力的价格提供该模型，缓存 token 定价低至每百万 token 0.145 美元。凭借这一优势，DeepSeek 有望在成本敏感型智能体工作流市场中占据一席之地——在这类场景中，持续、低成本的大规模推理比追求绝对的前沿性能更为关键。

DeepSeek V4 Pro：性能逼近GPT-5.2，成本仅十七分之一

产品2026年5月6日· 原作者：AccessPath 研究院· 3 分钟阅读5 阅读

架构创新

已知局限性

对企业的影响

DeepSeek V4 Pro：性能逼近GPT-5.2，成本仅十七分之一

架构创新

已知局限性

对企业的影响

想了解 AI 如何助力您的企业？

24小时热榜

鸽子靠肝脏中的磁感细胞导航

代码不珍贵，AI才值得

我把手机相册改造成了自主AI代理

技术浪潮如何重塑企业战略

流利不等于得体：AI社交语用失败本质

共情之战：AI时代，我们真的赢了吗？

游戏AI拼的不是智商，是演技

每月100美元AI，如何花出800美元的效果

免费获取 AI 落地指南

DeepSeek V4 Pro：性能逼近GPT-5.2，成本仅十七分之一

架构创新

已知局限性

对企业的影响

想了解 AI 如何助力您的企业？

24小时热榜

鸽子靠肝脏中的磁感细胞导航

代码不珍贵，AI才值得

我把手机相册改造成了自主AI代理

技术浪潮如何重塑企业战略

流利不等于得体：AI社交语用失败本质

共情之战：AI时代，我们真的赢了吗？

游戏AI拼的不是智商，是演技

每月100美元AI，如何花出800美元的效果

免费获取 AI 落地指南