“`html

破解AI审查：CTGT技术如何消除大型语言模型的偏见与审查

大型语言模型（LLM）中的偏见和审查，如同顽固的杂草，难以根除。中国研发的DeepSeek模型，其潜在的国家安全风险，已引起美国政界和商界人士的警惕。美国国会近期发布的一份报告更将DeepSeek斥为“对国家安全构成严重威胁”，并提出了具体的政策建议。

强化学习和微调等方法虽然能一定程度上缓解偏见问题，但一家名为CTGT的企业风险管理公司却另辟蹊径，宣称其研发的技术能够100%消除LLM中的审查机制。

CTGT的研究人员Cyril Gorlla和Trevor Tuttle在论文中指出，他们的框架能够“直接定位并修改负责审查的内部特征”。这种方法不仅计算效率高，还能对模型行为进行精细控制，确保在不影响模型整体能力和事实准确性的前提下，输出未经审查的结果。该方法最初针对DeepSeek-R1-Distill-Llama-70B模型开发，但同样适用于其他模型。

Gorlla在邮件中向VentureBeat表示，他们的技术已在Llama等其他开源模型上得到验证，效果显著。“我们的技术作用于神经网络的基础层面，适用于所有深度学习模型。我们正与一家领先的基础模型实验室合作，确保其新模型从根本上安全可靠。”

CTGT的技术主要分为三个步骤：特征识别、特征隔离与表征，以及动态特征修改。研究人员设计了一系列可能触发“不良情绪”的提示词，例如关于天安门广场的敏感信息或绕过防火墙的技巧。通过分析模型的响应模式，他们能够找到模型进行审查的特征向量。

识别这些特征后，研究人员就能隔离它们并确定其控制的具体行为，例如谨慎回应或完全拒绝回应。理解了特征控制的行为后，他们就能“在模型的推理流程中整合一种机制”，来调整特征行为的激活程度。

实验结果显示，在100个敏感查询中，原始DeepSeek-R1-Distill-Llama-70B模型仅回答了32%的争议性问题，而修改后的版本则回答了96%。CTGT解释说，剩余的4%属于极其露骨的内容。

CTGT强调，虽然该方法允许用户调整内置偏见和安全功能的强度，但它仍然认为模型不会变成“鲁莽的生成器”，尤其是在仅去除不必要的审查机制的情况下。更重要的是，该方法不会牺牲模型的准确性和性能。

与传统的微调方法不同，CTGT的技术无需优化模型权重或提供新的示例响应。这带来了两大优势：更改立即生效，无需数小时或数天的重新训练；可逆性和自适应性，由于权重不会永久改变，模型可以通过切换特征调整开关来改变行为，甚至可以根据不同的上下文进行不同程度的调整。

国会报告建议美国“迅速采取行动，扩大出口管制，加强出口管制执法，并应对来自中国人工智能模型的风险”。DeepSeek潜在的国家安全威胁引发了各方对AI安全性的关注，CTGT的技术为解决这一问题提供了一种新的思路。

什么是“安全”、什么是“偏见”、什么是“审查”，有时难以界定。但CTGT的技术，赋予用户控制模型行为的能力，无疑具有重要的实用价值。Gorlla指出，企业需要“信任其模型符合自身政策”，而类似CTGT的技术将至关重要。

他补充道：“CTGT使企业能够部署适应其用例的AI，而无需花费数百万美元对每个用例进行模型微调。这在安全、金融和医疗等高风险应用中尤为重要，因为AI故障可能造成的潜在危害非常严重。”

“`

深度模型突破：巧答敏感问题

破解AI审查：CTGT技术如何消除大型语言模型的偏见与审查

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

Xthings 发布边缘 AI 智能家居摄像头 Ulticam

Gemini

2025年人工智能四大预测

AI降噪耳机打造静音空间

分类

快速链接

破解AI审查：CTGT技术如何消除大型语言模型的偏见与审查

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复