前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
报告

Tow数字新闻中心:新研究发现人工智能搜索工具的平均准确率仅为60%

NEXTECH
Last updated: 2025年3月14日 上午1:46
By NEXTECH
Share
11 Min Read
SHARE

人工智能模型可能缺乏准确性,这是不争的事实。 对于开发人员来说,产生幻觉和重复错误信息一直是一个棘手的问题。 由于用例千差万别,因此很难确定与人工智能准确性相关的可量化百分比。 一个研究团队声称,他们现在已经掌握了这些数字。

Tow 数字新闻中心最近研究了八个AI搜索引擎,包括  ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。 他们测试了每种工具的准确性,并记录了工具拒绝回答的频率。

研究人员从 20 家新闻出版社(每家 10 篇)随机选择了 200 篇新闻报道。 他们确保每篇报道在使用文章摘录时都能在Google搜索中返回前三个结果。 然后,他们在每个人工智能搜索工具中执行相同的查询,并根据搜索是否正确引用了 A)文章、B)新闻机构和 C)URL 来评定准确性。

然后,研究人员根据从”完全正确”到”完全不正确”的准确度给每条搜索贴上标签。 从下图中可以看出,除了两个版本的 Perplexity 外,其他人工智能的表现都不理想。 总体而言,人工智能搜索引擎有 60% 的时间是不准确的。 此外,人工智能对这些错误结果的”信心”也强化了这些错误结果。

这项研究之所以引人入胜,是因为它以量化的方式证实了我们几年前就已经知道的事实–LLM是”史上最狡猾的骗子”。 他们以完全权威的口吻报告说,他们所说的都是真的,即使事实并非如此,有时甚至会争辩或在面对质疑时编造其他虚假的断言。

You Might Also Like

迈阿密大学:长期高温致健康风险上升
Algolia:2024年B2C电子商务网站搜索趋势
起亚汽车财报:2024年起亚汽车营业利润为12.6671万亿韩元 创历史新高
世界经济论坛:2025年多元化、公平和包容报告

在 2023 年的一篇轶事文章中,Ted Gioia(诚实的经纪人)指出了数十条 ChatGPT 的回复,显示机器人在回复大量询问时自信地”撒谎”。 虽然有些例子是对抗性询问,但许多只是一般性问题。

即使承认自己错了, ChatGPT 也会在承认错误之后提供更多的虚假信息。 LLM 似乎被编程为不惜一切代价回答用户的每一个输入。 研究人员的数据证实了这一假设,并指出 ChatGPT Search 是唯一能回答全部 200 条文章查询的人工智能工具。 不过,它的完全准确率仅为 28%,完全不准确的时间占 57%。

ChatGPT 还不是最差的。 X 的 Grok AI 的两个版本都表现不佳,但Grok-3 Search 的准确率高达 94%。 微软的 Copilot 也没好到哪里去,因为它在 200 次查询中拒绝回答了 104 次。 在剩下的 96 个查询中,只有 16 个”完全正确”,14 个”部分正确”,66 个”完全错误”,因此它的准确率大约为 70%。

可以说,这一切最疯狂的地方在于,制造这些工具的公司对这种缺乏准确性的情况并不透明,同时向公众收取每月 20 到 200 美元的费用。 此外,Perplexity Pro(20 美元/月)和 Grok-3 Search(40 美元/月)比其免费版本(Perplexity 和 Grok-2 Search)回答的查询正确率略高,但错误率也明显更高(上图)。

不过,并非所有人都同意这种说法。 TechRadar 的兰斯-乌拉诺夫(Lance Ulanoff)表示,在尝试了 ChatGPT Search 之后,他可能再也不会使用 Google 了。 他描述说,该工具快速、清晰、准确,界面简洁、无广告。

自 中文业界资讯站

Share This Article
Email Copy Link Print
Previous Article 中兴通讯财报:2024年中兴通讯营收1212.99亿元 同比下降2.38%
Next Article 20250313174815239.png Opensignal:2025年移动网络体验排行榜
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
国家统计局:2024年中国家庭空调拥有量达145.9台/百户,江苏最高237.3台
报告
上半年中国进口车品牌销量榜:前十阵营除了雷克萨斯 其余全线暴跌
易车网:2025年上半年中国进口车品牌销量榜前十阵营全线暴跌
报告
美国政府:2025年8月前欧盟对美汽车出口量同比下降15.9%
报告
台积电:2025年Q2净利润3982.7亿新台币 同比增长近61%
报告

相关内容

20250309235215885.jpg
报告

ESCAP:2025年可持续发展目标进展报告

2025年3月10日
20250307055815315.jpg
报告

商务部:2024年社会消费品零售总额达到48.3 万亿元 同比增长 3.5%

2025年3月7日
报告

谷歌:自2019年以来Google温室气体总排放量增长了48%

2024年7月10日
20250316175416149.png
报告

宁德时代财报:2024年全年宁德时代营收3620.12亿元 同比下降9.70%

2025年3月17日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?