深思熟虑的 AI:Nous Research 推出 DeepHermes-3 预览版
在 DeepSeek 和 OpenAI 的“o”系列模型的推动下,能够生成“思维链”并反思自身分析以在输出结果之前捕捉错误的 AI 推理模型正风靡一时。而 Nous Research 集体,这个神秘却秉持着崇高原则的工程师团队,在 2023 年于纽约市成立以来,一直致力于打造“个性化、无限制”的 AI 模型,他们通常通过获取和微调或重新训练开源模型(如 Meta 的 Llama 系列和法国初创公司 Mistral 的模型)来实现这一目标。
本周,Nous Research 宣布推出另一款全新的推理模型,名为“DeepHermes-3 预览版”。这款模型被描述为“将推理和直观语言模型能力融为一体的 LLM”,用户可以随意在更长的推理过程和更短、更快、计算量更小的响应之间切换。
DeepHermes-3 是 Hermes 3 的 80 亿参数变体,Hermes 3 本身是 Meta 发布的 Llama 的变体,Nous Research 在 2024 年 8 月发布了 Hermes 3。示例交流表明,Hermes 3 可以进行类似元认知的自我思考,并思考 AI 与人类意识之间的关系,这在模型的输出中引发了类似存在主义危机的反应。
用户可以在 Hugging Face 上下载完整的模型代码,以及经过量化(减少位数)并以 GPT 生成的统一格式 (GGUF) 保存的版本。GGUF 旨在让模型推理(实际生产构建,而不是训练)在消费级 PC 和服务器上运行。
Nous Research 团队在 X 和 Discord 频道上表示,他们希望“我们独特的用户控制、可切换推理模式方法能够进一步实现我们的使命,即让 DeepHermes 的用户能够根据自己的需求进行更多控制”。
DeepHermes-3 基于 Hermes 3 数据集,这是一个由 Nous Research 为更广泛的 Hermes 3 系列精心策划的多领域数据集。
根据 2024 年 8 月发布的 Hermes 3 技术报告,该数据集包含大约 3.9 亿个标记,涵盖了各种指令和基于推理的领域。
该数据集被细分为以下主要类别:
- 通用指令 (60.6%) – 与通用 AI 聊天模型中类似的广泛、开放式提示。
- 领域专家数据 (12.8%) – 科学、法律和工程等领域的专业知识。
- 数学 (6.7%) – 旨在提高数值和逻辑推理能力的复杂问题解决数据集。
- 角色扮演和创意写作 (6.1%) – 旨在增强讲故事和模拟对话能力的数据。
- 编码和软件开发 (4.5%) – 代码生成和调试任务。
- 工具使用、代理推理和检索增强生成 (RAG) (4.3%) – 关于函数调用、规划和知识检索的训练。
- 内容生成 (3.0%) – 写作、摘要和结构化输出任务。
- 引导和对齐 (2.5%) – 专注于使模型高度可控并对用户提示做出响应的数据。
此外,Nous Research 团队的匿名成员 @Teknium(X 上的 @Teknium1)在回复公司 Discord 服务器用户时写道,该模型是在“100 万个非思维链输出和 15 万个思维链输出”上训练的。
这种数据混合支持 DeepHermes-3 在直观响应和深度结构化推理之间切换的独特能力,这是它与其他 LLM 的主要区别。
DeepHermes-3 允许用户使用系统提示控制其推理深度。用户需要在提示之前输入以下文本以“开启”模型的推理模式:
“你是一个深度思考的 AI,你可以使用极长的思维链来深入思考问题,并通过系统推理过程与自己进行深思熟虑,以帮助在回答问题之前找到正确的解决方案。你应该将你的想法和内心独白放在标签中,然后提供你对问题的解决方案或回答。”
当推理模式启用时,模型会以长思维链的方式处理信息,使其能够在生成答案之前进行系统地深思熟虑。
这是通过使用 <think></think> 标签实现的,模型的内心独白在呈现最终解决方案之前会进行结构化。
在标准响应模式下,模型的行为更像传统的 AI 聊天机器人,提供更快速、基于直觉的响应,而无需进行深入的逻辑处理。
早期的基准测试和社区测试为 DeepHermes-3 的能力提供了关键见解:
- 数学推理:DeepHermes-3 在 MATH 基准测试中的得分是 67%,而 DeepSeek 的 R1 蒸馏模型的得分是 89.1%。虽然 DeepSeek 在纯粹的数学任务中表现出色,但 Nous Research 将 DeepHermes-3 定位为一个更通用的模型,具有更广泛的对话和推理能力。
- 多轮对话:一些测试者报告说,推理模式在第一次响应时会正确激活,但在扩展对话中可能无法持续。社区成员建议在每次响应的开头强制执行 <think>\n,这是一种在 DeepSeek-R1 中也使用的方法。
- 函数调用:DeepHermes-3 支持工具使用,但它没有明确地训练将推理模式和函数调用同时集成在一起。一些用户报告说,虽然将这两个功能结合起来可以提高执行工具的准确性,但结果仍然不一致。
Nous Research 正在积极收集用户反馈,以改进推理持久性并改善多轮交互。
DeepHermes-3 可在 Hugging Face 上进行测试,并提供针对低功耗硬件优化的 GGUF 量化版本。该模型与 vLLM 兼容,用于推理,并使用 Llama-Chat 格式进行多轮对话。
一位用户报告说,在 MacBook Pro M4 Max 上的处理速度为每秒 28.98 个标记,这表明该模型可以在消费级硬件上高效运行。
DeepHermes-3 基于 Meta 的 Llama 3 模型,并受 Meta Llama 3 社区许可证的约束。虽然该模型可供免费使用、修改和重新分发,但适用某些条件:
- 重新分发:任何衍生模型或部署都必须包含原始许可证,并醒目地显示“使用 Meta Llama 3 构建”。
- 模型训练限制:用户不能使用 DeepHermes-3(或 Llama 3)来训练其他大型语言模型,除非是明确基于 Llama 3 的衍生作品。
- 大型公司的商业许可:月活跃用户超过 7 亿的组织必须在商业使用该模型之前获得 Meta 的明确批准。
- 可接受的使用政策:用户必须遵守 Meta 的 AI 使用限制,禁止在虚假信息、监控和有害内容生成等领域使用。
这些重新分发规则和商业限制意味着,尽管 DeepHermes-3 在 Hugging Face 上可用,但它并非传统意义上的完全开源,这与中国竞争对手 DeepSeek 的热门推理模型 R1 不同,R1 在宽松的 MIT 许可证下可用。
DeepHermes-3 由 @teknium、@emozilla、@Gifted Gummy Bee、@hjc-puro 和 @jsupha 开发,Nous Research 感谢开源社区对数据集、评估工具和模型训练的贡献。
Nous Research 将此预览模型视为通往下一个主要版本 Hermes 4 的垫脚石,Hermes 4 预计将进一步完善其推理和对话能力。