前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

深度模型突破:巧答敏感问题

NEXTECH
Last updated: 2025年9月9日 上午6:51
By NEXTECH
Share
11 Min Read
SHARE

“`html

破解AI审查:CTGT技术如何消除大型语言模型的偏见与审查

大型语言模型(LLM)中的偏见和审查,如同顽固的杂草,难以根除。中国研发的DeepSeek模型,其潜在的国家安全风险,已引起美国政界和商界人士的警惕。美国国会近期发布的一份报告更将DeepSeek斥为“对国家安全构成严重威胁”,并提出了具体的政策建议。

强化学习和微调等方法虽然能一定程度上缓解偏见问题,但一家名为CTGT的企业风险管理公司却另辟蹊径,宣称其研发的技术能够100%消除LLM中的审查机制。

CTGT的研究人员Cyril Gorlla和Trevor Tuttle在论文中指出,他们的框架能够“直接定位并修改负责审查的内部特征”。这种方法不仅计算效率高,还能对模型行为进行精细控制,确保在不影响模型整体能力和事实准确性的前提下,输出未经审查的结果。该方法最初针对DeepSeek-R1-Distill-Llama-70B模型开发,但同样适用于其他模型。

Gorlla在邮件中向VentureBeat表示,他们的技术已在Llama等其他开源模型上得到验证,效果显著。“我们的技术作用于神经网络的基础层面,适用于所有深度学习模型。我们正与一家领先的基础模型实验室合作,确保其新模型从根本上安全可靠。”

CTGT的技术主要分为三个步骤:特征识别、特征隔离与表征,以及动态特征修改。研究人员设计了一系列可能触发“不良情绪”的提示词,例如关于天安门广场的敏感信息或绕过防火墙的技巧。通过分析模型的响应模式,他们能够找到模型进行审查的特征向量。

识别这些特征后,研究人员就能隔离它们并确定其控制的具体行为,例如谨慎回应或完全拒绝回应。理解了特征控制的行为后,他们就能“在模型的推理流程中整合一种机制”,来调整特征行为的激活程度。

实验结果显示,在100个敏感查询中,原始DeepSeek-R1-Distill-Llama-70B模型仅回答了32%的争议性问题,而修改后的版本则回答了96%。CTGT解释说,剩余的4%属于极其露骨的内容。

CTGT强调,虽然该方法允许用户调整内置偏见和安全功能的强度,但它仍然认为模型不会变成“鲁莽的生成器”,尤其是在仅去除不必要的审查机制的情况下。更重要的是,该方法不会牺牲模型的准确性和性能。

与传统的微调方法不同,CTGT的技术无需优化模型权重或提供新的示例响应。这带来了两大优势:更改立即生效,无需数小时或数天的重新训练;可逆性和自适应性,由于权重不会永久改变,模型可以通过切换特征调整开关来改变行为,甚至可以根据不同的上下文进行不同程度的调整。

国会报告建议美国“迅速采取行动,扩大出口管制,加强出口管制执法,并应对来自中国人工智能模型的风险”。DeepSeek潜在的国家安全威胁引发了各方对AI安全性的关注,CTGT的技术为解决这一问题提供了一种新的思路。

什么是“安全”、什么是“偏见”、什么是“审查”,有时难以界定。但CTGT的技术,赋予用户控制模型行为的能力,无疑具有重要的实用价值。Gorlla指出,企业需要“信任其模型符合自身政策”,而类似CTGT的技术将至关重要。

他补充道:“CTGT使企业能够部署适应其用例的AI,而无需花费数百万美元对每个用例进行模型微调。这在安全、金融和医疗等高风险应用中尤为重要,因为AI故障可能造成的潜在危害非常严重。”

“`

Share This Article
Email Copy Link Print
Previous Article 20250908180100851.png Gartner:2025年第二季度全球个人电脑出货量总计超过6300万台
Next Article 27年国产芯片自给率最高可达91%:内存显卡SSD有惊喜 大摩:2027年国产芯片自给率最高达91%
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205190349369.jpg
Meta战略大转向:削减30%元宇宙预算,全力押注AI
科技
20251205183721458.jpg
南部非洲古人类基因组改写进化史:20万年隔离与独特基因
科技
20251205180959635.jpg
AMD为对华出口AI芯片支付15%税费,引发美国宪法争议
科技
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技

相关内容

2024年的AI工具展示了其在商业应用中的強大潛力,從提升寫作與組織能力到改進客戶互動與數據分析。
AI

7个颠覆规则的AI工具,重塑商业生产力

2024年12月20日
Amir Satvat 在业余时间帮助人们找工作。他在腾讯游戏工作。
AI

游戏如何重回平衡增长之路

2024年11月14日
Claude Skills 功能示意图
AI 前沿技术

Claude Skills:Anthropic AI 的智能技能功能解析与应用

2025年11月6日
20250518225349691.png
AI

LinkedIn: 大模型、LangChain 和 Jupyter 助力提示工程

2025年5月19日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up