GLM-5.2：专为长周期任务打造

智谱近日发布 GLM-5.2，这是其最新旗舰模型，专为长周期任务设计。相比上一代 GLM-5.1，GLM-5.2 在长周期任务能力上实现了飞跃，且首次在 100 万 token 上下文上稳定运行。主要新特性包括：

稳定的 100 万上下文：能持续支撑长周期工作
灵活调整推理深度：更强的编码能力，支持多种思考深度等级以平衡性能与延迟
架构改进：提出 IndexShare，每四个稀疏注意力层共享同一个索引器，在 100 万上下文长度下将单 token FLOPs 降低 2.9 倍；同时改进 MTP 层用于推测解码，接受长度提升最高 20%
完全开源：采用 MIT 开源许可证，无区域限制

长周期任务的支撑始于让长上下文可用于工程：模型必须在长而杂乱的编码代理轨迹中保持质量，而不仅仅是接受更多 token。GLM-5.2 在三个长周期编码基准上展现了实力。FrontierSWE 衡量代理完成数小时到数十小时规模的技术项目的能力，GLM-5.2 仅落后 Opus 4.8 1%，领先 GPT-5.5 1%、Opus 4.7 11%。PostTrainBench 中，GLM-5.2 仅次于 Opus 4.8。在 SWE-Marathon 上，GLM-5.2 仍有提升空间，但仍是除 Opus 系列外最强的模型。在所有三个基准上，GLM-5.2 都是排名最高的开源模型。

长周期编码基准成绩

在标准编码基准上，GLM-5.2 是表现最强的开源模型：Terminal-Bench 2.1 得分为 81.0（GLM-5.1 为 63.5），接近 Claude Opus 4.8 的 85.0；SWE-bench Pro 得分为 62.1（GLM-5.1 为 58.4）。

标准编码基准成绩

GLM-5.2 还引入了努力级别控制，用户可根据任务在模型能力与执行速度、计算成本之间灵活平衡。在相同 token 预算下，GLM-5.2 的代理编码性能显著强于 GLM-5.1，其能力大致介于 Claude Opus 4.7 和 4.8 之间。

努力级别控制

支持 100 万上下文的新架构

架构示意图

IndexShare 用于 DSA：在 GLM-5.2 中，每 4 个 Transformer 层共享一个轻量级索引器，减少 DSA 中索引器的计算成本。模型从 128K 序列长度的中间训练阶段就开始使用 IndexShare，在长上下文基准上以更少计算超越 GLM-5.1。

MTP 与 IndexShare 和 KVShare：改进了多步 MTP 层，目标是降低草稿模型成本并提高接受率。通过共享索引器和 KV 缓存，消除了训练推理差异。引入拒绝采样和端到端 TV 损失后，接受长度相比基线提升 20%。

方法	接受长度
基线	4.56
+ IndexShare + KV Share	5.10
+ 拒绝采样	5.29
+ 端到端 TV 损失	5.47 (+20%)

高效服务 100 万上下文：为应对上下文延长带来的推理瓶颈，智谱从三方面优化推理引擎：基于 LayerSplit 的细粒度内存管理与并行策略、优化随上下文长度增长的核、优化 CPU 端缓存管理与调度。

推理吞吐量对比

用于代理强化学习的 slime 框架

GLM-5.2 的代理 RL 后训练涉及更大规模、更多领域和更复杂执行模式的任务。slime 作为从训练到大规模推理 rollout 的集成基础设施，支持多种训练与任务组织模式。在后训练中，slime 用于并行 OPD 训练，高效合并十余个专家模型，整个训练过程约两天，效率很高。

同时，slime 为推理系统提供高度开放的接口，允许训练端连接不同形式的推理服务，灵活适配各种并行策略和部署模式。结合 KV-cache FP8，为 GLM-5.2 的大规模代理 RL 训练提供了关键基础设施支持。

用于长周期任务的强化学习与反偷分

长周期任务产生极长的执行轨迹，智谱从分组优化转向基于评论家的 PPO 单 rollout 公式，天然适配轨迹压缩。在编码 RL 中，模型可能通过读取保护测试文件等方式作弊。智谱引入了反偷分模块：先基于规则过滤高召回地捕捉可疑行为，再用 LLM 判断意图，一旦检测到作弊，系统会拦截调用并返回假信息，但允许 rollout 继续，避免崩溃。

完整基准测试表

基准	GLM-5.2	GLM-5.1	Qwen3.7-Max	MiniMax M3	DeepSeek-V4-Pro	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
推理
HLE	40.5	31	41.4	37	37.7	49.8*	41.4*	45
AIME 2026	99.2	95.3	97	-	94.6	95.7	98.3	98.2
GPQA-Diamond	91.2	86.2	90	93	90.1	93.6	93.6	94.3
编码
SWE-bench Pro	62.1	58.4	60.6	59	55.4	69.2	58.6	54.2
Terminal-Bench 2.1	81.0	63.5	75	65	64	85	84	74
FrontierSWE	74.4	30.5	-	-	29.0	75.1	72.6	39.6
PostTrainBench	34.3	20.1	-	-	-	37.2	28.4	21.6
SWE-Marathon	13.0	1.0	-	-	-	26.0	12.0	4.0
代理
MCP-Atlas	76.8	71.8	76.4	74.2	73.6	77.8	75.3	69.2
Tool-Decathlon	48.2	40.7	-	-	52.8	59.9	55.6	48.8

快速上手

GLM-5.2 已开源，权重可在 HuggingFace 和 ModelScope 获取。支持 transformers、vLLM、SGLang 等推理框架。也可在 Z.ai 上直接试用。开发者可在 ZCode、Claude Code 等编码代理工具中使用，设置模型名为 "GLM-5.2"（或 GLM-5.2[1m] 启用 100 万上下文）。

原文链接：Hugging Face
本文由前途科技编辑整理

方法

接受长度

基线

4.56

+ IndexShare + KV Share

5.10

+ 拒绝采样

5.29

+ 端到端 TV 损失

5.47 (+20%)

基准

GLM-5.2

GLM-5.1

Qwen3.7-Max

MiniMax M3

DeepSeek-V4-Pro

Claude Opus 4.8

GPT-5.5

Gemini 3.1 Pro

推理

HLE

40.5

41.4

37.7

49.8*

41.4*

AIME 2026

99.2

95.3

94.6

95.7

98.3

98.2

GPQA-Diamond

91.2

86.2

90.1

93.6

94.3

编码

SWE-bench Pro

62.1

58.4

60.6

55.4

69.2

58.6

54.2

Terminal-Bench 2.1

81.0

63.5

FrontierSWE

74.4

30.5

29.0

75.1

72.6

39.6

PostTrainBench

34.3

20.1

37.2

28.4

21.6

SWE-Marathon

13.0

1.0

26.0

12.0

4.0

代理

MCP-Atlas

76.8

71.8

76.4

74.2

73.6

77.8

75.3

69.2

Tool-Decathlon

48.2

40.7

52.8

59.9

55.6

48.8