加入我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
在 OpenAI 为期 12 天的节日主题产品发布活动“12 Days of OpenAI”的第九天,OpenAI 正式通过其应用程序编程接口 (API) 向第三方开发者推出其最先进的模型 o1。
这标志着开发者在构建新的高级 AI 应用程序或将 OpenAI 最先进的技术集成到其现有应用程序和工作流程中(无论是面向企业还是面向消费者的)方面迈出了重要的一步。
如果您还不熟悉 OpenAI 的 o1 系列,这里有一个简要介绍:它是在 2024 年 9 月宣布的,是 ChatGPT 公司推出的新“系列”模型中的第一个,超越了 GPT 系列的大型语言模型 (LLM),并提供“推理”功能。
基本上,o1 系列模型(o1 和 o1 mini)在以答案响应用户的提示时需要更长的时间,但它们会在生成答案的过程中进行自我检查,以确保答案的正确性并避免幻觉。当时,OpenAI 表示 o1 可以处理更复杂、博士级别的难题,这在现实世界用户的实际应用中也得到了证实。
虽然开发者之前可以访问 o1 的预览版本,并在此基础上构建自己的应用程序(例如,博士导师或实验室助理),但通过 API 发布的生产就绪的完整 o1 模型带来了改进的性能、更低的延迟以及使它更容易集成到现实世界应用程序中的新功能。
大约两周半前,OpenAI 已经通过其 ChatGPT Plus 和 Pro 计划向消费者提供了 o1,并且还增加了模型分析和响应用户上传的图像和文件的功能。
除了今天的发布,OpenAI 还宣布对其实时 API 进行重大更新,包括降价和一种新的微调方法,使开发者能够更好地控制其模型。
新的 o1 模型(名为 o1-2024-12-17)旨在擅长复杂的多步骤推理任务。与早期的 o1-preview 版本相比,此版本提高了准确性、效率和灵活性。
OpenAI 报告了在一系列基准测试中取得了显著进展,包括编码、数学和视觉推理任务。
例如,在 SWE-bench Verified 上的编码结果从 41.3% 提高到 48.9%,而在以数学为中心的 AIME 测试中的性能从 42% 跃升至 79.2%。这些改进使 o1 非常适合构建用于简化客户支持、优化物流或解决具有挑战性的分析问题的工具。
几个新功能增强了 o1 对开发者的功能。结构化输出允许响应可靠地匹配自定义格式(例如 JSON 架构),确保与外部系统交互时的一致性。函数调用简化了将 o1 连接到 API 和数据库的过程。而对视觉输入进行推理的能力则开辟了制造、科学和编码方面的用例。
开发者还可以使用新的 reasoning_effort 参数微调 o1 的行为,该参数控制模型在任务上花费的时间,以平衡性能和响应时间。
OpenAI 还宣布对其实时 API 进行更新,该 API 旨在为低延迟、自然的对话体验提供支持,例如语音助手、实时翻译工具或虚拟导师。
新的 WebRTC 集成通过直接支持音频流、噪声抑制和拥塞控制,简化了基于语音的应用程序的构建。开发者现在可以以最少的设置集成实时功能,即使在网络条件不稳定的情况下也是如此。
OpenAI 还为其实时 API 推出了新的定价,将 GPT-4o 音频的成本降低了 60%,每百万个输入令牌 40 美元,每百万个输出令牌 80 美元。
缓存的音频输入成本降低了 87.5%,现在每百万个输入令牌的价格为 2.50 美元。为了进一步提高经济性,OpenAI 添加了 GPT-4o mini,这是一个更小、更经济高效的模型,价格为每百万个输入令牌 10 美元,每百万个输出令牌 20 美元。
GPT-4o mini 的文本令牌费率也大幅降低,输入令牌起价为 0.60 美元,输出令牌起价为 2.40 美元。
除了定价之外,OpenAI 还让开发者能够更好地控制实时 API 中的响应。诸如并发带外响应之类的功能允许后台任务(例如内容审核)在不中断用户体验的情况下运行。开发者还可以自定义输入上下文以关注对话的特定部分,并控制何时触发语音响应,以实现更准确、更无缝的交互。
另一个重大补充是偏好微调,这是一种根据用户和开发者偏好自定义模型的方法。
与依赖于精确的输入-输出对的监督微调不同,偏好微调使用成对比较来教模型哪些响应是首选。这种方法对于主观任务特别有效,例如摘要、创意写作或语气和风格很重要的场景。
与 Rogo AI 等合作伙伴的早期测试表明了令人鼓舞的结果,Rogo AI 为金融分析师构建了助手。Rogo 报告称,偏好微调帮助他们的模型比传统微调更好地处理复杂、分布外查询,任务准确率提高了 5% 以上。该功能现在可用于 gpt-4o-2024-08-06 和 gpt-4o-mini-2024-07-18,并计划在明年初将支持扩展到更新的模型。
为了简化集成,OpenAI 正在扩展其官方 SDK 产品,发布 Go 和 Java 的测试版。这些 SDK 加入现有的 Python、Node.js 和 .NET 库,使开发者更容易在更多编程环境中与 OpenAI 的模型进行交互。Go SDK 特别适用于构建可扩展的后端系统,而 Java SDK 则专为依赖于强类型和强大生态系统的企业级应用程序量身定制。
通过这些更新,OpenAI 为开发者提供了一个扩展的工具包,用于构建先进的、可定制的 AI 驱动的应用程序。无论是通过 o1 改进的推理能力、实时 API 增强功能还是微调选项,OpenAI 的最新产品都旨在为推动 AI 集成边界创新的企业提供更高的性能和成本效益。