Perplexity 升级 Deep Research,性能领先业界

产品· 3 分钟阅读16 阅读

Perplexity 宣布将 Deep Research 工具升级至 Claude Opus 4.5 模型,结合专有搜索引擎,性能在 DRACO 基准测试中领先谷歌和 OpenAI。同时开源 DRACO 基准,旨在基于真实使用场景评估深度研究能力。

Perplexity 周三宣布,已将其 Deep Research 工具升级为运行在 Anthropic 的 Claude Opus 4.5 模型上,将先进的推理能力与该公司专有的搜索引擎和沙盒基础设施相结合。此次升级已面向 Max 订阅用户推出,并将在未来几天内向 Pro 用户开放。

这家 AI 搜索公司还发布了 DRACO,这是一个新的开源基准测试,旨在基于真实使用模式而非孤立技能来评估深度研究代理。

Perplexity 推出 Deep Research 工具,挑战 OpenAI

基准测试显示,Perplexity 在准确性方面领先。深度研究准确性、完整性和客观性(DRACO)基准测试包含 10 个领域的 100 项任务:学术、金融、法律、医学、技术、常识、用户体验设计、个人助理、购物和大海捞针。每项任务根据四个维度的约 40 项专家定义标准进行评估:事实准确性、分析的广度和深度、呈现质量以及引用质量。

根据 Perplexity 的论文,其 Deep Research 工具获得了 67.15% 的标准化得分,相比之下,谷歌 Gemini Deep Research 为 58.97%,OpenAI 使用 o3 模型的 Deep Research 为 52.06%。该公司报告称,不同评判模型(包括 GPT-5.2 和 Sonnet-4.5)的排名结果保持一致。

最大的性能差距出现在医学、常识和技术领域,Perplexity 称其在这些领域的表现比第二名系统高出 9-12 个百分点。该公司在法律领域的绝对表现最高,达到 86.0%,学术领域为 80.2%。

与传统基准测试只测试事实检索或冷知识等单一技能不同,DRACO 是从匿名化的 Perplexity Deep Research 请求中构建而成,并经过增强以创建反映实际研究需求的复杂开放式任务。

Perplexity 在其 X 平台的公告中表示:“大多数基准测试只测试事实检索或冷知识等单一技能。但真正的研究需要跨多个来源进行综合分析、细致入微的分析以及准确的信息来源。”

该基准测试还衡量效率权衡。根据论文,Perplexity Deep Research 在保持最高准确率分数的同时,实现了 459.6 秒的最低平均延迟。

Perplexity 已将 DRACO 完全开源,发布了基准测试、评估标准和方法论。该数据集已在 Hugging Face 上提供。

此次升级是在 Perplexity 于 2025 年 2 月首次推出 Deep Research 之后进行的,当时引入了多轮查询和跨来源验证功能。公司一直在持续迭代该产品,CEO Aravind Srinivas 承认“特别是对于金融领域,数据准确性是必须的,而且关系重大。”

Perplexity 于 1 月与 签署了一份据报道价值 7.5 亿美元的云服务协议,该公司将 Deep Research 定位为其战略核心,旨在提供研究级分析,与谷歌和 OpenAI 的产品展开竞争。

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会