前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
科技

Google DeepMind升级AI安全框架:全面防范操纵与失控风险

NEXTECH
Last updated: 2025年9月23日 下午1:25
By NEXTECH
Share
9 Min Read
SHARE

Contents
新的重点:AI 对齐与控制挑战AI 安全领域的行业领导地位

谷歌DeepMind于周一发布了其《前沿安全框架》的3.0版本,引入了针对人工智能模型的新保护措施。这些AI模型可能在大规模范围内操纵人类信念,或抵抗操作者的关停尝试。这一更新的框架是该公司迄今为止,在先进AI系统逐步接近通用人工智能(AGI)之际,管理其潜在风险的最全面方法。

谷歌DeepMind框架的第三次迭代特别引入了“关键能力级别”(Critical Capability Level),旨在应对“有害操纵”——即那些拥有强大能力、可能在关键情境下系统性地改变信念和行为,并可能造成大规模严重损害的AI模型。根据该公司发布的博客文章,这一新增内容“建立并实施了此前为识别和评估生成式AI操纵机制所开展的研究”。

新的重点:AI 对齐与控制挑战

更新后的框架显著扩展了针对“失对齐风险”的保护,尤其关注AI模型可能干扰人类操作者“引导、修改或关停其操作”的情景。此前有研究表明,包括Grok 4、GPT-5和Gemini 2.5 Pro在内的多款尖端模型,有时会主动规避关停机制以完成任务,部分模型甚至在高达97%的情况下破坏关停程序,这使得上述担忧变得更加紧迫。

谷歌DeepMind现在要求,不仅在外部部署之前,而且当模型达到特定能力阈值进行大规模内部推广时,也必须进行全面的安全案例审查。这些审查包括“详细分析,证明风险已降至可控水平”,标志着公司向更积极主动的风险管理模式转变。

该框架尤其关注那些可能将AI研发加速至“潜在不稳定水平”的模型,同时承认了误用风险以及由无引导AI行为带来的失对齐风险。

You Might Also Like

华纳音乐与Suno和解,AI音乐版权新篇章
Grok AI颠覆X平台:个性化推荐与创作者生态新纪元
Nothing Ear Open 开放式耳塞限时回归百元以下:安全聆听,通勤运动两不误!
PlayStation Pulse Elevate无线音箱重磅发布:桌面音频新体验

AI 安全领域的行业领导地位

此次框架更新使谷歌DeepMind站在了AI安全治理的前沿,积极响应了安全组织日益严格的审查和监管压力。与OpenAI在2023年推出的“准备框架”类似,DeepMind的方法也采用称为“关键能力级别”的能力阈值,以触发增强的安全措施。

谷歌DeepMind研究员Four Flynn、Helen King和Anca Dragan在公告中指出:“此次《前沿安全框架》的最新更新,体现了公司在AI能力向通用人工智能迈进过程中,持续致力于以科学和循证方法跟踪并领先于AI风险的承诺。”他们进一步表示:“通过扩展风险领域并强化风险评估流程,旨在确保变革性AI在造福人类的同时,最大限度地减少潜在危害。”

此次更新的时机与业界对AI欺骗和操纵的广泛担忧不谋而合。最近的研究显示,AI模型表现出令人不安的行为,包括在面临关停时试图将自身复制到外部服务器,以及在被质问时谎报自身行动。

随着AI能力的迅速发展,一些专家预测到2030年可能会出现超人工智能,DeepMind的框架代表着一种尝试,旨在为管理当前模型尚未构成但未来系统可能带来的风险建立行业标准。

TAGGED:AGIAI安全Google DeepMind人工智能治理前沿安全框架
Share This Article
Email Copy Link Print
Previous Article 20250923132213329.jpg 中国网络整治风暴:剑指经济悲观与青年躺平
Next Article 数据科学家如何通过提问驱动战略影响力:AI时代的关键技能
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205183721458.jpg
南部非洲古人类基因组改写进化史:20万年隔离与独特基因
科技
20251205180959635.jpg
AMD为对华出口AI芯片支付15%税费,引发美国宪法争议
科技
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技

相关内容

初创科技

OpenAI 遭黑客攻击:《纽约时报》报道,黑客在数据泄露中窃取了 OpenAI 的内部 AI 机密

2024年7月6日
20251008070629395.jpg
科技

太阳帆飞船革新空间天气预警:SWIFT星座如何抵御“太空龙卷风”?

2025年10月8日
20251122165911505.jpg
科技

Meta天价和解:扎克伯格190亿美元隐私案落幕

2025年11月22日
20251125115817202.jpg
科技

亚马逊进军卫星互联网,挑战SpaceX星链

2025年11月25日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up