OpenAI开源了GPT-OSS-Safeguard-120B和GPT-OSS-Safeguard-20B两款安全推理模型,它们均基于GPT-OSS架构构建。
这些模型能够根据用户提供的安全策略对文本内容进行分类,并执行一系列基础安全任务。它们主要面向安全用例设计,对于其他应用场景,建议使用GPT-OSS模型。

GPT-OSS-Safeguard-20B(210亿参数,其中36亿为活跃参数)可适配具有16GB显存的GPU。对于需要更大模型的场景,可以选择GPT-OSS-Safeguard-120B(1170亿参数,其中51亿为活跃参数)。
模型亮点:
-
安全推理训练:模型经过专门训练和调整,以满足LLM输入输出过滤、在线内容标记以及信任与安全用例的离线标记等多种安全场景需求。
-
自带策略:模型能够解读用户定义的策略,从而在不同产品和使用场景中实现通用化,显著减少工程干预。
-
推理决策,而不仅仅是分数:用户可以完全访问模型的推理过程,这有助于更轻松地调试并增强对策略决策的信任。请注意,原始CoT(链式推理)专为开发人员和安全从业者设计,不建议将其暴露给普通用户或用于安全上下文之外的用例。
-
可配置的推理强度:根据具体使用场景和延迟需求,可以轻松调整推理强度(低、中、高)。
-
宽松的Apache 2.0许可证:用户可以自由构建,无需担心版权共享限制或专利风险,非常适合实验、定制以及商业部署。
https://hf-mirror.com/openai/gpt-oss-safeguard-20b
