OpenAI 刚刚发布了 OpenAI o1 的预览版,这是一系列新的 AI 模型,它们在做出反应之前需要更多时间思考。据 ChatGPT 背后的公司称,这些模型比其前辈更有能力处理复杂任务,并解决科学、编码和数学方面更具挑战性的问题。
OpenAI 在一篇博文中分享道:“我们正在 ChatGPT 和我们的 API 中推出该系列的第一款产品。这是一个预览版,我们预计会定期更新和改进。除了此版本外,我们还将分享目前正在开发的下一次更新的评估。”
此预览版是在 OpenAI 发布 GPT-4o mini 之后发布的,GPT-4o mini 是其聊天机器人的较小、经济高效的版本。GPT-4o mini 被描述为“当今功能最强大、成本效率最高的小型模型”,最终将包括图像、视频和音频功能。
我们正在发布 OpenAI o1 的预览版,这是一系列新的 AI 模型,旨在在做出响应之前花更多时间思考。
这些模型可以推理复杂的任务,并解决比以前的科学、编码和数学模型更难的问题。https://t.co/peKzzKX1bu
— OpenAI (@OpenAI) 2024 年 9 月 12 日
工作原理
OpenAI 表示,这些新的 o1 模型经过训练后,能够在做出反应之前更彻底地思考问题,类似于人类的推理。它们旨在改进方法,尝试不同的策略,并发现自己的错误。
在测试中,即将推出的模型更新在物理、化学和生物学等艰巨的基准测试任务上的表现可与博士生相媲美。它在数学和编码方面也表现出色。例如,在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 正确解决了 13% 的问题,而推理模型则达到了 83%。该模型的编码技能通过 Codeforces 竞赛进行了评估,达到了第 89 个百分位。更多详细信息请参阅 OpenAI 的技术研究文章。
目前,该模型还缺少一些让 ChatGPT 广泛有用的功能,例如网页浏览和上传文件和图像的能力。然而,对于复杂的推理任务来说,这一版本标志着人工智能能力向前迈出了一大步。为了反映这一新阶段,该系列被命名为 OpenAI o1。
安全措施
在开发这些模型时,OpenAI 引入了一种新的安全训练方法,利用其推理能力更好地符合安全准则。这意味着该模型可以更有效地在特定情境中应用安全规则。
衡量安全性的一种方法是测试模型在多大程度上遵守其指导方针,即使用户试图绕过它们(这种做法称为“越狱”)。在一项具有挑战性的测试中,GPT-4o 得分为 22 分(满分 100 分),而 o1-preview 模型得分为 84 分。更多详细信息可在系统卡和研究帖子中找到。
为了与这些新模型的功能保持一致,OpenAI 加强了其安全协议、内部治理以及与联邦当局的合作。这包括严格的测试、通过其准备框架进行的评估以及其安全与保障委员会的监督。
作为对人工智能安全承诺的一部分,OpenAI 最近与美国和英国人工智能安全研究所达成了正式协议。这些协议包括提供该模型研究版本的早期访问权限,作为未来模型公开发布之前研究、评估和测试的基础。
谁可能受益
这些高级推理能力对于那些应对科学、编码和数学等领域的复杂挑战的人来说尤其有价值。例如,OpenAI o1 可以协助医疗研究人员注释细胞测序数据,帮助物理学家为量子光学创建复杂的数学公式,并使各个领域的开发人员能够构建和执行多步骤工作流程。
OpenAI 由 Sam Altman 和 Elon Musk 于 2015 年创立,最初是一家非营利组织,旨在推动安全有益的通用人工智能 (AGI)。该公司于 2020 年转型为商业实体,此举大大改变了其发展轨迹。尽管面临内部挑战,包括 Altman 于去年 11 月短暂离职并重返,但 OpenAI 仍然是人工智能行业的领跑者,这得益于其旗舰产品 ChatGPT(于 2022 年推出)的持续成功。