DeepSeek V4 Pro在FoodTruck Bench基准测试中与GPT-5.2仅差3%,成本却只有后者的十七分之一。尽管存在高幻觉率等局限,其超高性价比仍被认为将在企业AI智能体场景中占据重要地位。
中国 AI 实验室 DeepSeek 于 4 月 24 日发布的旗舰开源模型 V4 Pro,在独立智能体商业模拟基准测试 FoodTruck Bench 上与 OpenAI 的 GPT-5.2 仅相差 3%,而每 token 的成本约为后者的十七分之一。上述结果于周一发布在该基准测试的排行榜上。
根据这一结果,V4 Pro 在 FoodTruck Bench 总榜中排名第四,位列 Claude Opus 4.6、GPT-5.2 和 Grok 4.3 之后,但两者之间的成本差距十分显著。GPT-5.2 的定价为每百万输入 token 1.75 美元、每百万输出 token 14 美元,而 DeepSeek V4 Pro 的对应价格分别为 0.435 美元和 0.87 美元——在输出量较大的智能体任务场景下,成本优势约达 17 倍。

V4 Pro 是一款拥有 1.6 万亿参数的混合专家(MoE)模型,每个 token 仅激活 490 亿个参数,总参数量与活跃参数量之间实现了 30:1 的压缩比。该模型采用混合注意力机制,将压缩稀疏注意力(Compressed Sparse Attention)与深度压缩注意力(Heavily Compressed Attention)相结合。在百万 token 上下文长度下,其推理所需的浮点运算量仅为前代模型 DeepSeek V3.2 的 27%,KV 缓存占用仅为其 10%。该模型以 MIT 许可证开源,并已在 Hugging Face 上发布。
独立评估为部分过度的乐观情绪泼了一盆冷水。CAISI 的评估发现,V4 Pro 的实际表现与约八个月前发布的原始 GPT-5 更为接近,而非 DeepSeek 自家基准测试所显示的与 GPT-5.2 相当。该模型在 AA-Omniscience 基准测试中的幻觉率高达 94%,意味着它在缺乏相关知识时,几乎总是会生成一个答案,而非选择放弃作答。DeepSeek 自身也承认,V4 在性能上"略逊于"顶尖闭源模型,差距大约相当于三到六个月的开发进度。
尽管存在上述不足,业界分析人士仍认为其性价比对企业AI领域具有变革性意义。知名开发者及技术评论人 Simon Willison 指出,V4 Pro 目前是参数量最大的开源权重模型,以 1.1 万亿参数超越了 Kimi K2.6。目前已有六家 API 服务商以极具竞争力的价格提供该模型,缓存 token 定价低至每百万 token 0.145 美元。凭借这一优势,DeepSeek 有望在成本敏感型智能体工作流市场中占据一席之地——在这类场景中,持续、低成本的大规模推理比追求绝对的前沿性能更为关键。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断