OpenAI开源两大安全推理模型：GPT-OSS-Safeguard深度解析

OpenAI开源了GPT-OSS-Safeguard-120B和GPT-OSS-Safeguard-20B两款安全推理模型，它们均基于GPT-OSS架构构建。

这些模型能够根据用户提供的安全策略对文本内容进行分类，并执行一系列基础安全任务。它们主要面向安全用例设计，对于其他应用场景，建议使用GPT-OSS模型。

GPT-OSS-Safeguard模型策略推理流程图

GPT-OSS-Safeguard-20B（210亿参数，其中36亿为活跃参数）可适配具有16GB显存的GPU。对于需要更大模型的场景，可以选择GPT-OSS-Safeguard-120B（1170亿参数，其中51亿为活跃参数）。

模型亮点：

安全推理训练：模型经过专门训练和调整，以满足LLM输入输出过滤、在线内容标记以及信任与安全用例的离线标记等多种安全场景需求。
自带策略：模型能够解读用户定义的策略，从而在不同产品和使用场景中实现通用化，显著减少工程干预。
推理决策，而不仅仅是分数：用户可以完全访问模型的推理过程，这有助于更轻松地调试并增强对策略决策的信任。请注意，原始CoT（链式推理）专为开发人员和安全从业者设计，不建议将其暴露给普通用户或用于安全上下文之外的用例。
可配置的推理强度：根据具体使用场景和延迟需求，可以轻松调整推理强度（低、中、高）。
宽松的Apache 2.0许可证：用户可以自由构建，无需担心版权共享限制或专利风险，非常适合实验、定制以及商业部署。

https://hf-mirror.com/openai/gpt-oss-safeguard-20b