前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

阿里巴巴发布推理能力强大的语言模型Marco-o1

NEXTECH
Last updated: 2024年11月30日 下午2:55
By NEXTECH
Share
15 Min Read
SHARE

大型推理模型的新纪元:阿里巴巴Marco-o1的突破

近年来,随着OpenAI o1的发布,大型推理模型(LRMs)成为了人工智能领域炙手可热的焦点。这些模型旨在解决传统语言模型难以处理的复杂问题,为人工智能应用开辟了新的可能性。阿里巴巴的研究人员紧随其后,推出了Marco-o1,进一步提升了推理能力,并着力解决那些缺乏明确标准和可量化奖励的开放式问题。

OpenAI o1通过“推理时间扩展”技术,赋予模型“思考时间”,从而提升推理能力。简单来说,模型在推理过程中会使用更多计算资源,生成更多词元并反复审视其响应,从而在需要推理的任务中取得更好的表现。o1在数学、物理和编码等具有标准答案的任务中表现出色,其强大的推理能力令人印象深刻。

然而,许多实际应用中存在着开放式问题,这些问题缺乏明确的解决方案和可量化的奖励。阿里巴巴的研究人员表示:“我们希望进一步突破LLMs的界限,增强其推理能力,以应对现实世界中复杂的挑战。”

Marco-o1是阿里巴巴Qwen2-7B-Instruct模型的微调版本,它集成了链式思维(CoT)微调、蒙特卡洛树搜索(MCTS)和推理行动策略等先进技术。

研究人员使用多个数据集训练Marco-o1,包括Open-O1 CoT数据集、Marco-o1 CoT数据集(使用MCTS生成的合成数据集)以及Marco-o1指令数据集(针对推理任务的自定义指令遵循数据集合)。

Marco-o1
Marco-o1利用CoT和MCTS进行任务推理(来源:arXiv)

MCTS是一种搜索算法,在解决复杂问题方面表现出色。它通过反复采样可能性、模拟结果并逐步构建决策树,智能地探索不同的解决方案路径。MCTS在复杂的AI问题中(例如战胜围棋游戏)已被证明非常有效。

Marco-o1利用MCTS在生成响应词元时探索多个推理路径。模型使用候选响应词元的置信度分数来构建其决策树并探索不同的分支。这使模型能够考虑更广泛的可能性,并得出更明智、更细致入微的结论,尤其是在存在开放式解决方案的情况下。研究人员还引入了一种灵活的推理行动策略,允许他们通过定义树中每个节点生成的词元数量来调整MCTS步骤的粒度。这在准确性和计算成本之间取得了平衡,使用户能够灵活地平衡性能和效率。

Marco-o1的另一个关键创新是引入了反思机制。在推理过程中,模型会定期提示自己:“等等!我可能犯了一些错误!我需要从头开始重新思考。”这会导致模型重新评估其推理步骤,识别潜在的错误并改进其思维过程。

研究人员写道:“这种方法使模型能够充当自己的批评者,识别其推理中的潜在错误。通过明确地提示模型质疑其最初的结论,我们鼓励它重新表达和改进其思维过程。”

为了评估Marco-o1的性能,研究人员在多个任务上进行了实验,包括MGSM基准(用于多语言小学数学问题的数据集)。Marco-o1显著优于基础Qwen2-7B模型,尤其是在MCTS组件针对单词元粒度进行调整时。

Marco-o1 results
不同版本的Marco-o1与基础模型的比较(来源:arXiv)

然而,Marco-o1的主要目标是解决开放式场景中推理的挑战。为此,研究人员在翻译口语和俚语表达方面测试了该模型,这是一项需要理解语言、文化和语境微妙差异的任务。实验表明,Marco-o1能够比传统的翻译工具更有效地捕捉和翻译这些表达。例如,该模型正确地将中文口语表达(字面意思是“这双鞋有一种踩到屎的感觉”)翻译成英文等效表达“这双鞋的鞋底很舒服”。模型的推理链显示了它是如何评估不同的潜在含义并得出正确翻译的。

这种范式可以证明对产品设计和战略等任务非常有用,这些任务需要深入的上下文理解,并且没有明确定义的基准和指标。

Marco-o1 translation
翻译任务的推理链示例(来源:arXiv)

自o1发布以来,人工智能实验室竞相发布推理模型。上周,中国人工智能实验室DeepSeek发布了其o1竞争对手R1-Lite-Preview,目前该模型仅通过公司的在线聊天界面提供。据报道,R1-Lite-Preview在几个关键基准测试中击败了o1。

开源社区也在追赶私有模型市场,发布了利用推理时间扩展定律的模型和数据集。阿里巴巴团队在Hugging Face上发布了Marco-o1,以及研究人员可以用来训练自己的推理模型的部分推理数据集。另一个最近发布的模型是LLaVA-o1,由中国多所大学的研究人员开发,它将推理时间推理范式引入开源视觉语言模型(VLMs)。

这些模型的发布正值模型扩展定律的未来充满不确定性之际。各种报告表明,训练更大模型的回报正在递减,可能正在达到瓶颈。但可以肯定的是,我们才刚刚开始探索推理时间扩展的可能性。

Share This Article
Email Copy Link Print
Previous Article OpenAI宣布,其ChatGPT Windows電腦版App現已向免費用戶開放,讓更多人可以在電腦系統上享受其功能。 ChatGPT 电脑版来了,Windows 用户终于盼到!
Next Article 20241130124744422.png 025年快速消费品市场整体增长0.9%,如何“花”钱?
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
乘联会:2025年4月国内乘用车零售175.5万辆,同比增长14.5%
报告
卡塔尔航空:2025财年利润21.5亿美元创纪录
报告
4月中大型轿车销量榜:小米SU7登顶 超越奥迪A6L、奔驰E级和宝马5系
中汽数研:2025年4月中大型轿车销量 小米SU7登顶
报告
威尔逊:2025年3月BBA车主置换首选特斯拉占比14%
报告

相关内容

AI

人工智能识破艺术赝品

2024年9月24日
adobe-watermark2.jpg?resize=1200,600
AI

Adobe防AI盗用,艺术家轻松屏蔽作品

2024年10月9日
AI

联邦学习如何提升网络安全

2024年11月14日
20241125190546512.png
AI

AI 代理入门:流程、角色和连接

2024年11月26日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?