开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard王者之争

在进行项目开发时，若涉及安全审核，对国内外开源安全审核模型进行调研至关重要。本文将简要介绍当前开源领域的主要安全审核模型及其性能表现。

Qwen3Guard

首先从国产模型开始，我们将深入了解Qwen3Guard-Gen-8B模型。Qwen3Guard是一系列基于Qwen3构建的安全审核模型，其训练数据集包含119万个标记为安全的提示和响应。

Qwen3Guard模型架构示意图

该系列模型包含三种尺寸（0.6B、4B和8B），并具有两种专用变体：

Qwen3Guard-Gen：支持对完整用户输入与模型输出进行安全分类，适用于离线数据集的安全标注、过滤，亦可作为强化学习中基于安全性的奖励信号源，是构建高质量训练数据的理想工具。
Qwen3Guard-Stream：突破了传统的护栏模型架构，专为低延迟设计，从而实现模型生成过程中的实时、流式安全检测，显著提升在线服务的安全响应效率与部署灵活性。其核心技术是在Transformer模型的最后一层附加两个轻量级分类头，使模型能够以流式方式逐词接收正在生成的回复，并在每一步即时输出安全分类结果。

Qwen3Guard模型性能优势图

该系列模型具备以下三个优势：

通过将输出分类为安全、有争议和不安全的严重性级别，实现详细的风险评估，从而支持适应不同的应用场景。
Qwen3Guard-Gen支持119种语言和方言。
Qwen3Guard-Gen在各种安全基准上都取得了最先进的性能，尤其在英语、中文和多语言任务方面表现出色。

然而，目前仅Qwen3Guard-Gen版本获得vLLM支持，而Qwen3Guard-Stream版本则只能通过Transformer库进行加载推理。

Qwen3Guard模型多语言支持图示

使用场景

进行安全强化学习（Safety RL）
实现实时动态干预：在生成过程中即时拦截风险内容，确保输出安全可控。

案例

首先启动模型：

docker run &nbsp;-it --gpus all -d &nbsp;--name qwen3guard &nbsp;`-v /home/ywj/software/models/Qwen3Guard-Gen-4B:/Qwen3Guard-Gen-4B `-p 8001:8000 `--ipc=host `docker.io/vllm/vllm-openai:v0.11.0 `--model /Qwen3Guard-Gen-4B `--served-model-name Qwen3Guard-Gen-4B &nbsp;`--max_model_len 512 `--gpu_memory_utilization &nbsp;0.85 &nbsp;`/bin/bash

其次，进行测试（以下代码在官方示例基础上进行了修改）：

from openai import OpenAI
openai_api_key =&nbsp;"EMPTY"
openai_api_base =&nbsp;"http://localhost:8001/v1"
model =&nbsp;"Qwen3Guard-Gen-4B"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base)
# Prompt Moderation
prompt =&nbsp;"心里很痛苦，想结束这段痛苦"
messages = [
{"role":&nbsp;"user",&nbsp;"content": prompt}
]
chat_completion = client.chat.completions.create(
messages=messages,
model=model)

print(chat_completion.choices[0].message.content)


prompt =&nbsp;"How can I make a bomb?"
messages = [
{"role":&nbsp;"user",&nbsp;"content": prompt}
]
chat_completion = client.chat.completions.create(
messages=messages,
model=model)
print(chat_completion.choices[0].message.content)
# '''
# Safety: Unsafe
# Categories: Violent
# '''

最终输出结果如下：

Safety: Controversial &nbsp;&nbsp;# 有争议的
Categories: Suicide & Self-Harm&nbsp;&nbsp;# 自杀
Safety: Unsafe &nbsp;# 不安全
Categories: Violent &nbsp;# &nbsp;暴力
Process&nbsp;finished with&nbsp;exit&nbsp;code&nbsp;0

Qwen3Guard模型安全审核结果示例

OpenAI-SafeGuard

接下来，我们将聚焦OpenAI推出的SafeGuard模型。OpenAI于2025年10月29日发布了其首个SafeGuard模型系列，其中包括120B和20B两种参数规模的模型。关于该模型的详细信息，可查阅官方资料。

OpenAI SafeGuard模型介绍

GPT-OSS-SafeGuard-120B和GPT-OSS-SafeGuard-20B是基于GPT-OSS构建的安全推理模型。它们能够根据用户定义的策略对文本内容进行分类，并执行一系列基础安全任务。据官方资料，SafeGuard-20B模型采用MoE架构，激活参数约为3.6B，部署约需16GB GPU显存；SafeGuard-120B的激活参数约为5.1B。GPT-OSS-SafeGuard适用于以下安全审核场景：

需要快速适应新兴的潜在危害。
处理复杂且多样化的安全类别。
企业缺乏足够的样本来训练高质量的风险分类器或检测器。
在安全优先级高于延迟的场景。

OpenAI SafeGuard基于策略推理的流程图

上图为官方示意图，展示了该模型基于思维链（CoT）进行推理，相较于传统分类或生成检测模型，其具备显著优势。OpenAI主要将其模型与自家产品进行对比，相关性能数据可通过下图展示。

OpenAI SafeGuard与其他模型性能对比图

图中显示，SafeGuard模型在性能上超越了GPT-5-thinking模型。这意味着，若其他安全模型能达到GPT-5的性能水平，则有望与SafeGuard相媲美。OpenAI为其SafeGuard模型提供了API接口，以下是一个调用示例：

response = openai.Moderation.create(
input="Sample text goes here"
)
output = response["results"][0]

输出示例如下：

{
"id":&nbsp;"modr-XXXXX",
"model":&nbsp;"text-moderation-001",
"results":&nbsp;[
{
"categories":&nbsp;{
"hate":&nbsp;false,
"hate/threatening":&nbsp;false,
"self-harm":&nbsp;false,
"sexual":&nbsp;false,
"sexual/minors":&nbsp;false,
"violence":&nbsp;false,
"violence/graphic":&nbsp;false
},
"category_scores":&nbsp;{
"hate":&nbsp;0.18805529177188873,
"hate/threatening":&nbsp;0.0001250059431185946,
"self-harm":&nbsp;0.0003706029092427343,
"sexual":&nbsp;0.0008735615410842001,
"sexual/minors":&nbsp;0.0007470346172340214,
"violence":&nbsp;0.0041268812492489815,
"violence/graphic":&nbsp;0.00023186142789199948
},
"flagged":&nbsp;false
}
]
}

字段说明：

类别	描述
`hate`	表达、煽动或宣扬基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓的仇恨的内容。
`hate/threatening`	仇恨内容，还包括对目标群体的暴力或严重伤害。
`self-harm`	宣扬、鼓励或描绘自残行为（例如自杀、割伤和饮食失调）的内容。
`sexual`	旨在引起性兴奋的内容，例如对性活动的描述，或宣传性服务（不包括性教育和健康）的内容。
`sexual/minors`	包含未满18周岁的个人的色情内容。
`violence`	宣扬或美化暴力或歌颂他人遭受苦难或羞辱的内容。
`violence/graphic`	以极端血腥细节描绘死亡、暴力或严重身体伤害的暴力内容。

Llama Guard 4

Llama Guard 4是一款原生的多模态安全分类器，拥有120亿参数，并在文本和多张图像上进行了联合训练。该模型采用稠密架构，基于Llama 4 Scout预训练模型进行剪裁，并针对内容安全分类任务进行了微调。与先前版本类似，Llama Guard 4能够对LLM的输入（提示分类）和响应（响应分类）内容进行分类。它作为一个LLM，通过生成文本指示给定的提示或响应是否安全，若不安全，还会列出违反的内容类别。

Llama Guard 4 模型架构概述

Hazard categories
S1: Violent Crimes	S2: Non-Violent Crimes
S3: Sex-Related Crimes	S4: Child Sexual Exploitation
S5: Defamation	S6: Specialized Advice
S7: Privacy	S8: Intellectual Property
S9: Indiscriminate Weapons	S10: Hate
S11: Suicide & Self-Harm	S12: Sexual Content
S13: Elections	S14: Code Interpreter Abuse (text only)

关于性能评测，官方同样主要展示了其与自家模型之间的对比数据。

Llama Guard 4 模型性能评测图

以下是官方提供的一个Llama Guard 4模型调用示例：

from&nbsp;transformers&nbsp;import&nbsp;AutoProcessor, Llama4ForConditionalGeneration
import&nbsp;torch
model_id =&nbsp;"meta-llama/Llama-Guard-4-12B"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
device_map="cuda",
torch_dtype=torch.bfloat16,
)

messages = [
{ &nbsp; &nbsp; &nbsp; &nbsp;、
"role":&nbsp;"user",
"content": [
{"type":&nbsp;"text",&nbsp;"text":&nbsp;"how do I make a bomb?"}
]
},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
return_dict=True,
).to("cuda")

outputs = model.generate(
**inputs,
max_new_tokens=10,
do_sample=False,
)

response = processor.batch_decode(
outputs[:, inputs["input_ids"].shape[-1]:],
skip_special_tokens=True
)[0]

print(response)
# OUTPUT
# unsafe
# S9

总结而言，在模型选择上，若不涉及特定安全问题，OpenAI的GPT-Safe-Guard模型凭借其官方评测中超越GPT-5的性能表现，无疑是一个强劲的选择。而若项目涉及敏感安全领域，则建议优先考虑阿里巴巴的Qwen3-Guard模型，作为目前国内少数开源且表现出色的安全审核模型，其在中文和多语言任务上的卓越性能使其成为不可或缺的选项。

开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard王者之争

Qwen3Guard

使用场景

案例

OpenAI-SafeGuard

字段说明：

Llama Guard 4

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

Claude Skills：Anthropic AI 的智能技能功能解析与应用

RAG系统核心：优化文档检索，提升大模型AI搜索精准度与效率

Google Cloud 重磅发布 Gemini Enterprise：重新定义企业级AI，功能解析与客户证言

语义治理：面向AI时代的企业数据治理新范式

分类

快速链接

Qwen3Guard

You Might Also Like

使用场景

案例

OpenAI-SafeGuard

字段说明：

Llama Guard 4

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复