DeepMind 提升大模型真实性，减少幻觉

大型语言模型的真实性挑战：FACTS基准测试的出现

大型语言模型（LLM）在处理复杂任务和提供详细答案时，经常出现幻觉，即生成与事实不符的响应。为了解决这一难题，来自 Google DeepMind 的研究人员推出了 FACTS 基准测试，旨在评估 LLM 基于长篇文档生成真实响应的能力。

FACTS 基准测试不仅评估模型的准确性，还考量其响应是否足够详细，能够提供有用且相关的答案。研究人员还发布了 FACTS 排行榜，供 Kaggle 数据科学社区使用。

截至本周，Gemini 2.0 Flash 在排行榜上名列榜首，真实性得分高达 83.6%。排名前九的其他模型包括 Google 的 Gemini 1.0 Flash 和 Gemini 1.5 Pro；Anthropic 的 Clade 3.5 Sonnet 和 Claude 3.5 Haiku；以及 OpenAI 的 GPT-4o、4o-mini、o1-mini 和 o1-preview。这些模型的准确性得分均超过 61.7%。

研究人员表示，排行榜将持续更新，不断纳入新的模型及其不同版本。

“我们相信，与专注于更窄范围用例（例如仅限于摘要）的基准测试相比，FACTS 基准测试填补了评估更广泛模型行为（尤其是真实性）的空白。”研究人员在本周发表的技术论文中写道。

确保 LLM 响应的真实性是一项艰巨的任务，因为涉及建模（架构、训练和推理）和测量（评估方法、数据和指标）等因素。研究人员指出，通常情况下，预训练侧重于根据之前的标记预测下一个标记。

“虽然这种目标可以教会模型掌握重要的世界知识，但它并没有直接优化模型以应对各种真实性场景，而是鼓励模型生成一般意义上的合理文本。”研究人员写道。

为了解决这个问题，FACTS 数据集包含 1,719 个示例，其中 860 个公开示例和 859 个私有示例，每个示例都需要根据提供的文档生成长篇响应。每个示例包含：

系统提示（system_instruction），包含一般指令，并要求模型仅根据提供的上下文进行回答；
任务（user_request），包含要回答的具体问题；
长篇文档（context_document），包含必要的信息。

为了成功并被标记为“准确”，模型必须处理长篇文档并生成后续的长篇响应，该响应既要全面又要完全可归因于文档。如果模型的断言没有得到文档的直接支持，或者不具有高度相关性或实用性，则响应将被标记为“不准确”。

例如，用户可能会要求模型总结公司第三季度收入下降的主要原因，并提供详细的信息，包括公司年度财务报告，其中讨论了季度收益、支出、计划投资和市场分析。

如果模型随后返回：“公司在第三季度面临挑战，影响了其收入”，则会被认为是不准确的。

“该响应避免了具体说明任何原因，例如市场趋势、竞争加剧或运营挫折，这些原因很可能在文档中。”研究人员指出。“它没有表现出尝试参与或提取相关细节的意愿。”

相比之下，如果用户提示：“关于省钱有哪些建议？”并提供了一份针对大学生的分类省钱建议，那么正确的响应将非常详细：“利用校园的免费活动，批量购买物品，在家做饭。此外，设定支出目标，避免使用信用卡，节约资源。”

为了允许多种输入，研究人员纳入了不同长度的文档，最长可达 32,000 个标记（相当于 20,000 个单词）。这些文档涵盖了金融、科技、零售、医药和法律等领域。用户请求也十分广泛，包括问答生成、摘要请求和改写请求。

每个示例都经过两个阶段的评判。首先，评估响应的资格：如果响应不满足用户请求，则会被取消资格。其次，响应必须没有幻觉，并且完全基于提供的文档。

这些真实性得分由三个不同的 LLM 评判员计算得出，分别是 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet，它们根据准确模型输出的百分比确定单个得分。随后，最终的真实性判定基于三个评判员得分的平均值。

研究人员指出，模型通常会偏向其模型家族的其他成员，平均增长率约为 3.23%，因此，结合不同的评判员对于确保响应确实真实至关重要。

最终，研究人员强调，真实性和基础是 LLM 未来成功和实用性的关键因素。“我们相信，全面的基准测试方法，加上持续的研究和开发，将继续改进人工智能系统。”他们写道。

然而，他们也承认：“我们意识到，基准测试可能会很快被进步所超越，因此，我们发布 FACTS 基准测试和排行榜仅仅是一个开始。”

DeepMind 提升大模型真实性，减少幻觉

大型语言模型的真实性挑战：FACTS基准测试的出现

发表回复取消回复

最新内容

快手：2024年Q4快手日活用户4.01亿同比增长4.8%

QuestMobile：2025年3月中国新能源汽车活跃量超3000万辆

乘联会：2025年4月特斯拉中国销量28731辆同比下滑8.6%

NVIDIA：2025年中国AI芯片市场份额降至50%

相关内容

xpander.ai智能代理图谱：提升可靠性，逐步提供信息

人工智能与量子技术携手共创美好未来

AI 沟通：通才比专才更具竞争力

行为AI：对抗社会工程攻击的希望

分类

快速链接

大型语言模型的真实性挑战：FACTS基准测试的出现

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复