前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

GPT-5.6 Sol预览:新一代模型的能力与安全

AI 前沿2026年6月25日· 原作者:OpenAI Blog· 7 分钟阅读2 阅读

OpenAI开始有限预览GPT-5.6系列,包括旗舰模型Sol、平衡模型Terra和快速低价模型Luna。新模型在编程、生物学和网络安全领域实现突破,同时配备了最强大的分层安全措施。预览期间仅对受信任合作伙伴开放,计划数周内广泛发布。

GPT-5.6 Sol预览:新一代模型的能力与安全

OpenAI 今日开启 GPT-5.6 系列的有限预览。该系列包括三款模型:旗舰模型 Sol、适合日常工作的平衡模型 Terra,以及快速且经济实惠的 Luna。Terra 的性能与 GPT-5.5 相当,但成本降低了一半;Luna 则在最低价格下提供了强大的能力。

GPT-5.6 Sol 搭载了 OpenAI 迄今为止最完善的安全堆栈。团队加强了针对高风险活动、敏感网络请求和重复滥用的防护,并花费数周时间寻找弱点、压力测试系统,以抵御现实攻击。

OpenAI 计划在未来几周内将 GPT-5.6 Sol、Terra 和 Luna 全面开放。作为与美国政府持续合作的一部分,OpenAI 在发布前预先展示了模型的能力和计划。应政府要求,预览阶段仅限一小批受信任合作伙伴参与,其参与情况已向政府通报。OpenAI 认为这种政府准入流程不应成为长期常态,但它相信这是数周内实现更广泛发布的最有力路径。

能力

GPT-5.6 Sol 是目前最强的模型。在编码、生物学和网络安全方面,它展现出更强大的智能体能力。具体评估结果可在系统卡中查看。

GPT-5.6 引入了新的 max 推理努力级别,让 Sol 有更多时间进行深度推理。此外,新增的 ultra 模式通过利用子智能体来加速复杂工作,超越了单个智能体的能力。

在编码工作流中,GPT-5.6 Sol 在 Terminal‑Bench 2.1 上创下新纪录,该基准测试需要规划、迭代和工具协调的命令行工作流。

在生物学方面,GPT-5.6 Sol 在 GeneBench v1 上表现出广泛提升,该基准评估长周期基因组学和定量生物学分析,模型在减少令牌使用的同时获得了比 GPT-5.5 更强的结果。

在网络安全方面,GPT-5.6 Sol 是当前最强大的模型。它推动了高性能与效率的边界,在漏洞研究和利用等长期安全任务上表现出色。在 ExploitBench 上,GPT-5.6 Sol 仅用约 1/3 的输出令牌就达到了与 Mythos Preview 相当的水平。在ExploitGym(由 UC Berkeley 与 OpenAI 及其他前沿实验室合作创建)中,随着推理能力的提升,Sol、Terra 和 Luna 均展现出显著的网络能力改进。

更强的网络能力与更强的安全保障

OpenAI 为 GPT-5.6 系列配备了迄今最强大的安全措施,并根据各模型的能力进行了配置。随着模型能力增强,安全保障也相应提升,以抵御现实对手的压力,同时保留合法工作(如代码审查、漏洞研究、补丁开发、调试、安全教育和防御性测试)的访问权限。目标是让禁止的 offensive 活动变得更加困难、不确定且可检测,同时不无谓限制有益用途。

GPT-5.6 Sol 在帮助人们发现和修复漏洞方面表现优于执行端到端攻击。随着能力进步,OpenAI 优先确保这些工具能惠及防御者。

根据预备框架,GPT-5.6 Sol 未达到网络临界阈值。在涉及 Chromium 和 Firefox 的评估中,它识别了漏洞和利用原语,但未能在测试条件下自主生成完整的功能性全链利用。然而,基准阈值无法涵盖模型可能被使用的所有方式。因此,更强的能力伴随着更强的安全保障和分阶段发布。

分层安全堆栈

没有单一安全保障足以应对坚决或适应性的滥用。在 GPT-5.6 预览中,OpenAI 使用分层安全措施,包括模型内嵌保护、生成时实时检查、账户级信号、差异化访问、监控、执行和持续测试。

GPT-5.6 经过训练,拒绝禁止的网络辅助,包括当用户试图伪装意图或越狱模型时。这些模型级安全措施建立了第一道边界。

实时网络和生物学滥用分类器提供了另一层保护,在生成时评估输出。对于高风险情况,如果检测到潜在违规,生成可能会暂停,同时让更大的推理模型审查对话上下文。如果输出被判定为不允许,则在到达用户之前被拦截。

被标记的活动还可以触发跨相关对话和风险信号的账户级审查。这有助于将持续恶意行为与合法的双重用途安全工作区分开来。

这些层共同使整体方法比任何单一保障更加稳健。在预览期间,用户可能会遇到阻止或拒绝请求的安全措施,或者因额外审查而延迟。

通过自动红队测试提高鲁棒性

安全保障需要保持有效性,即使攻击者改变策略。OpenAI 投入了超过 700,000 A100 等效 GPU 小时进行自动红队测试,以发现通用越狱方法。测试重点放在更难、更广泛的攻击上,使团队能够比人工测试更早地发现失败模式并缩短修复路径。

此外,OpenAI 还与第三方测试人员合作进行广泛的人类专家红队测试,并将在预览期间持续进行。

可用性与定价

预览期间,GPT-5.6 模型首先通过 API 和 Codex 向选定的合作伙伴和组织提供。OpenAI 计划很快向 ChatGPT、Codex 和 API 用户更广泛地开放。

GPT-5.6 的定价为每百万令牌:Sol 输入 $5 / 输出 $30;Terra 输入 $2.50 / 输出 $15;Luna 输入 $1 / 输出 $6。同时引入了更可预测的提示缓存,包括显式缓存断点和 30 分钟最短缓存生命周期。

OpenAI 还宣布将于七月在 Cerebras 上推出 GPT-5.6 Sol,速度可达每秒 750 令牌。

OpenAI 期待从预览中学习,并尽快向更多人提供 GPT-5.6 系列。


原文链接:OpenAI Blog
本文由前途科技编辑整理

标签:GPT-5.6Sol人工智能安全大语言模型

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

苹果游说特朗普政府购买黑名单中国芯片
TOP1

苹果游说特朗普政府购买黑名单中国芯片

Coinbase 默认选用中国 AI 模型
TOP2

Coinbase 默认选用中国 AI 模型

3

苹果游说美国政府采购黑名单中国企业芯片

1小时前
苹果游说美国政府采购黑名单中国企业芯片
4

SpaceX数据中心交易额或超760亿美元

1小时前
SpaceX数据中心交易额或超760亿美元
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款