OpenAI推出GPT-5.6系列模型,包括旗舰版Sol、平衡版Terra和快速版Luna。Sol在编码、生物和网络安全任务上表现卓越,并配备最强大的安全防护。目前向有限合作伙伴开放预览,计划数周后全面发布。
OpenAI开始对GPT-5.6系列进行有限预览,其中包括三个模型:旗舰模型Sol、适用于日常工作的平衡模型Terra,以及快速且经济的模型Luna。Terra性能与GPT-5.5相当,但成本便宜两倍;Luna则在最低价格下提供强大能力。
GPT-5.6 Sol搭载了迄今为止最强大的安全堆栈。OpenAI加强了对高风险活动、敏感网络请求和重复滥用的防护,并花费数周时间寻找弱点、对系统进行压力测试,使其能够抵御现实世界中的攻击。
OpenAI相信广泛访问的重要性,并计划在未来几周内全面推出GPT-5.6 Sol、Terra和Luna。作为与美国政府持续合作的一部分,OpenAI在发布前向政府预览了相关计划和模型能力。应政府要求,OpenAI首先向一小群经政府知晓的信任合作伙伴提供有限预览,然后再更广泛地发布。在预览期间,OpenAI将继续测试并与合作伙伴密切协调,以推进广泛可用性。OpenAI认为这种政府接入流程不应成为长期默认模式,因为它会阻碍用户、开发者、企业、网络防御者和全球合作伙伴获得最佳工具。但作为短期步骤,这是实现数周后广泛发布的最强路径,同时与行政当局合作制定网络行政命令框架和未来模型发布的可重复流程。
能力
GPT-5.6 Sol是OpenAI迄今为止最强大的模型。为了预览模型性能,OpenAI分享了一系列评估结果,突出展示了在编码、生物学和网络安全方面改进的智能体能力,更多安全与准备评估可在系统卡中查看。全面发布时将分享更多评估结果。
GPT-5.6引入了一种新的max推理努力选项,让Sol拥有最深度的推理时间。此外,还推出了ultra模式,通过利用子代理加速复杂工作,超越单个智能体的能力边界。
在编码工作流方面,GPT-5.6 Sol在Terminal-Bench 2.1上创下新纪录,该基准测试要求命令行工作流具备规划、迭代和工具协调能力。
GPT-5.6 Sol在生物学工作流方面也表现出广泛进步。在GeneBench v1上(评估长周期基因组学和定量生物学分析),它用更少的token取得了比GPT-5.5更优的结果。
GPT-5.6 Sol在网络安全方面能力最强,改变了长周期安全任务(包括漏洞研究和利用)的性能-效率曲线。在ExploitBench上,GPT-5.6 Sol仅使用约1/3的输出token即可与Mythos Preview竞争。在ExploitGym上(由UC Berkeley研究人员与OpenAI及其他前沿实验室合作创建的基准),GPT-5.6 Sol、Terra和Luna均展示了随着推理增强而显著提升的网络能力。
更强的网络能力与更强的防护
OpenAI开发GPT-5.6 Sol、Terra和Luna时配备了迄今为止最强大的防护措施,配置与每个模型的能力相匹配。随着模型能力增强,防护设计也在不断升级,以承受真实世界的对抗压力,同时保留合法工作(如代码审查、漏洞研究、补丁开发、调试、安全教育 and 防御性测试)的访问权限。目标是使禁止的攻击性活动更加困难、不确定和可检测,同时不必要限制有益用途。根据评估,预计模型和防护将为合法的防御性工作带来巨大收益,同时有效约束禁止的攻击性使用。
GPT-5.6 Sol在帮助人们发现和修复漏洞方面比可靠地执行端到端攻击更擅长。随着这些能力的进步,优先确保工具惠及防御者,他们可以利用这些工具发现弱点、开发补丁并加强系统。
根据OpenAI的准备框架,GPT-5.6 Sol未达到网络临界阈值。在涉及Chromium和Firefox的评估中,它识别了漏洞和利用原语(利用的组成部分),但未能在测试条件下自主生成完整的全链条利用。然而,基准测试阈值无法涵盖模型可能被使用或与其他工具组合的所有方式。这种不确定性,加上模型能力的大幅跃升,正是OpenAI将增强能力与更强防护和分阶段发布相结合的原因。在GPT-5.6预览系统卡中分享了更多防护细节。
分层安全防护堆栈
没有单一的防护措施能够抵御坚定的或适应性的滥用。在GPT-5.6预览中,OpenAI使用分层防护,配置因模型而异,并针对现实世界攻击进行压力测试。这些防护包括:训练进模型中的保护、生成期间的实时检查、账户级别信号、差异化访问、监控、执行和持续测试。
GPT-5.6经过训练,拒绝提供被禁止的网络协助,包括用户试图伪装意图或越狱模型的情况。这些模型级别的防护确立了模型应协助和不应协助的第一个边界。
实时的网络和生物学滥用分类器提供了另一层保护:在输出生成时进行评估。对于高风险案例,如果检测到潜在违规,生成可能会暂停,同时让更大的推理模型审查对话及其上下文。如果评估输出被禁止,则在到达用户之前将其拦截。
被标记的活动还可以触发跨相关对话和风险信号的账户级别审查,这与OpenAI关于内容保留和审查的条款和政策一致。超越单一对话的视角有助于系统区分持续的恶意行为和合法的双重用途安全工作,其中相似的技术概念可能出现在截然不同的上下文中。
这些层次共同使整体方法比任何单一防护都更强大。模型行为减少了有害响应的可能性,实时系统可以在生成过程中干预,账户级别审查可以识别更广泛的模式,差异化访问则保留了重要的防御性工作,而不默认广泛开放最敏感的能力。
尤其是在预览期间,用户可能会遇到拦截或拒绝某些请求的防护措施。其他请求可能需要更长时间,因为生成暂停以进行额外审查。防护措施有时可能会干预合法工作,尤其是在防御性和攻击性活动最初看起来相似的双重用途领域。
这正是预览设计要测试的部分。OpenAI希望不仅了解防护是否限制了滥用,还要了解合法用户是否仍能可靠高效地完成正常工作。预览期间的反馈将有助于减少不必要的拦截和延迟,改进防护如何理解上下文,从而在广泛发布前创造更流畅的体验。
OpenAI还在与企业客户合作,探索长期方案——包括隐私保护检测、客户操作的安全控制,以及根据客户、用户或工作负载的风险度身定制的访问权限——在支持企业隐私要求的同时推进安全性。
通过自动红队测试提升鲁棒性
防护措施还需要在攻击者调整策略时保持有效。仅对一组固定已知攻击有效的保护,对于前沿模型来说是不够强健的。
因此,OpenAI在安全方面投入了比以往更多的智能和计算资源,使用自己的模型来更快地发现弱点和改进防护。OpenAI投入了超过70万A100等效GPU小时用于自动红队测试,旨在寻找通用越狱:那些可以在多种提示或上下文中运作的攻击,而不仅仅是在单一狭窄环境中。专注于这些更困难、更通用的攻击,使得OpenAI能够超越固定已知失败的集合来测试防护。这也使得OpenAI能够探索远超人类测试所能覆盖的攻击模式,更早地识别失败模式,并缩短从发现弱点到解决弱点之间的路径。
除了自动红队测试,OpenAI还与第三方测试人员合作进行了广泛的人工专家红队测试,该测试将在预览期间继续进行。人工红队测试通过让创意专家尝试以系统可能未预料到的方式滥用模型,来补充自动红队工作。
没有任何评估能够代表所有产品配置、多步骤攻击或现实世界工作流。因此,OpenAI维护了一个快速响应流程,以重现、评估、优先处理和修复新发现的越狱,并将其添加到正在进行的评估中,以便未来能够针对类似失败进行测试。
可用性和定价
在预览期间,GPT-5.6模型最初将通过API和Codex向选定的信任合作伙伴和组织提供。OpenAI计划很快将其更广泛地提供给使用ChatGPT、Codex和API的用户。
在GPT-5.6引入的新命名系统中,数字标识模型的代际,而Sol、Terra和Luna标识可持续的能力层级,它们可以按自己的节奏进步。整个系列为用户和开发者提供了更清晰的智能、速度和成本选择。
GPT-5.6按每百万token定价,三种模型规格:Sol是$5输入/$30输出;Terra是$2.50输入/$15输出;Luna是$1输入/$6输出。GPT-5.6还引入了更可预测的提示缓存,包括对显式缓存断点的支持和至少30分钟的缓存生命周期。对于GPT-5.6及以后版本的模型,缓存写入按模型非缓存输入价格的1.25倍计费,而缓存读取继续享有90%的缓存输入折扣。
OpenAI还将于7月在Cerebras上推出GPT-5.6 Sol,速度高达每秒750个token,以空前的速度将前沿智能带给客户。初期将仅限选定客户访问,同时扩展容量。
OpenAI期待从这次预览期继续学习,并很快将GPT-5.6 Sol、Terra和Luna带给更多人。
脚注:
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断