“`html
破解AI审查:CTGT技术如何消除大型语言模型的偏见与审查
大型语言模型(LLM)中的偏见和审查,如同顽固的杂草,难以根除。中国研发的DeepSeek模型,其潜在的国家安全风险,已引起美国政界和商界人士的警惕。美国国会近期发布的一份报告更将DeepSeek斥为“对国家安全构成严重威胁”,并提出了具体的政策建议。
强化学习和微调等方法虽然能一定程度上缓解偏见问题,但一家名为CTGT的企业风险管理公司却另辟蹊径,宣称其研发的技术能够100%消除LLM中的审查机制。
CTGT的研究人员Cyril Gorlla和Trevor Tuttle在论文中指出,他们的框架能够“直接定位并修改负责审查的内部特征”。这种方法不仅计算效率高,还能对模型行为进行精细控制,确保在不影响模型整体能力和事实准确性的前提下,输出未经审查的结果。该方法最初针对DeepSeek-R1-Distill-Llama-70B模型开发,但同样适用于其他模型。
Gorlla在邮件中向VentureBeat表示,他们的技术已在Llama等其他开源模型上得到验证,效果显著。“我们的技术作用于神经网络的基础层面,适用于所有深度学习模型。我们正与一家领先的基础模型实验室合作,确保其新模型从根本上安全可靠。”
CTGT的技术主要分为三个步骤:特征识别、特征隔离与表征,以及动态特征修改。研究人员设计了一系列可能触发“不良情绪”的提示词,例如关于天安门广场的敏感信息或绕过防火墙的技巧。通过分析模型的响应模式,他们能够找到模型进行审查的特征向量。
识别这些特征后,研究人员就能隔离它们并确定其控制的具体行为,例如谨慎回应或完全拒绝回应。理解了特征控制的行为后,他们就能“在模型的推理流程中整合一种机制”,来调整特征行为的激活程度。
实验结果显示,在100个敏感查询中,原始DeepSeek-R1-Distill-Llama-70B模型仅回答了32%的争议性问题,而修改后的版本则回答了96%。CTGT解释说,剩余的4%属于极其露骨的内容。
CTGT强调,虽然该方法允许用户调整内置偏见和安全功能的强度,但它仍然认为模型不会变成“鲁莽的生成器”,尤其是在仅去除不必要的审查机制的情况下。更重要的是,该方法不会牺牲模型的准确性和性能。
与传统的微调方法不同,CTGT的技术无需优化模型权重或提供新的示例响应。这带来了两大优势:更改立即生效,无需数小时或数天的重新训练;可逆性和自适应性,由于权重不会永久改变,模型可以通过切换特征调整开关来改变行为,甚至可以根据不同的上下文进行不同程度的调整。
国会报告建议美国“迅速采取行动,扩大出口管制,加强出口管制执法,并应对来自中国人工智能模型的风险”。DeepSeek潜在的国家安全威胁引发了各方对AI安全性的关注,CTGT的技术为解决这一问题提供了一种新的思路。
什么是“安全”、什么是“偏见”、什么是“审查”,有时难以界定。但CTGT的技术,赋予用户控制模型行为的能力,无疑具有重要的实用价值。Gorlla指出,企业需要“信任其模型符合自身政策”,而类似CTGT的技术将至关重要。
他补充道:“CTGT使企业能够部署适应其用例的AI,而无需花费数百万美元对每个用例进行模型微调。这在安全、金融和医疗等高风险应用中尤为重要,因为AI故障可能造成的潜在危害非常严重。”
“`
