智谱发布 GLM-5.2,支持 100 万 token 稳定上下文,在长周期编码基准上仅次于 Claude Opus 4.8,并采用 IndexShare 架构大幅降低计算量。模型以 MIT 许可开源,无区域限制。
智谱近日发布 GLM-5.2,这是其最新旗舰模型,专为长周期任务设计。相比上一代 GLM-5.1,GLM-5.2 在长周期任务能力上实现了飞跃,且首次在 100 万 token 上下文上稳定运行。主要新特性包括:
长周期任务的支撑始于让长上下文可用于工程:模型必须在长而杂乱的编码代理轨迹中保持质量,而不仅仅是接受更多 token。GLM-5.2 在三个长周期编码基准上展现了实力。FrontierSWE 衡量代理完成数小时到数十小时规模的技术项目的能力,GLM-5.2 仅落后 Opus 4.8 1%,领先 GPT-5.5 1%、Opus 4.7 11%。PostTrainBench 中,GLM-5.2 仅次于 Opus 4.8。在 SWE-Marathon 上,GLM-5.2 仍有提升空间,但仍是除 Opus 系列外最强的模型。在所有三个基准上,GLM-5.2 都是排名最高的开源模型。

在标准编码基准上,GLM-5.2 是表现最强的开源模型:Terminal-Bench 2.1 得分为 81.0(GLM-5.1 为 63.5),接近 Claude Opus 4.8 的 85.0;SWE-bench Pro 得分为 62.1(GLM-5.1 为 58.4)。

GLM-5.2 还引入了努力级别控制,用户可根据任务在模型能力与执行速度、计算成本之间灵活平衡。在相同 token 预算下,GLM-5.2 的代理编码性能显著强于 GLM-5.1,其能力大致介于 Claude Opus 4.7 和 4.8 之间。


IndexShare 用于 DSA:在 GLM-5.2 中,每 4 个 Transformer 层共享一个轻量级索引器,减少 DSA 中索引器的计算成本。模型从 128K 序列长度的中间训练阶段就开始使用 IndexShare,在长上下文基准上以更少计算超越 GLM-5.1。
MTP 与 IndexShare 和 KVShare:改进了多步 MTP 层,目标是降低草稿模型成本并提高接受率。通过共享索引器和 KV 缓存,消除了训练推理差异。引入拒绝采样和端到端 TV 损失后,接受长度相比基线提升 20%。
| 方法 | 接受长度 |
|---|---|
| 基线 | 4.56 |
| + IndexShare + KV Share | 5.10 |
| + 拒绝采样 | 5.29 |
| + 端到端 TV 损失 | 5.47 (+20%) |
高效服务 100 万上下文:为应对上下文延长带来的推理瓶颈,智谱从三方面优化推理引擎:基于 LayerSplit 的细粒度内存管理与并行策略、优化随上下文长度增长的核、优化 CPU 端缓存管理与调度。

GLM-5.2 的代理 RL 后训练涉及更大规模、更多领域和更复杂执行模式的任务。slime 作为从训练到大规模推理 rollout 的集成基础设施,支持多种训练与任务组织模式。在后训练中,slime 用于并行 OPD 训练,高效合并十余个专家模型,整个训练过程约两天,效率很高。
同时,slime 为推理系统提供高度开放的接口,允许训练端连接不同形式的推理服务,灵活适配各种并行策略和部署模式。结合 KV-cache FP8,为 GLM-5.2 的大规模代理 RL 训练提供了关键基础设施支持。
长周期任务产生极长的执行轨迹,智谱从分组优化转向基于评论家的 PPO 单 rollout 公式,天然适配轨迹压缩。在编码 RL 中,模型可能通过读取保护测试文件等方式作弊。智谱引入了反偷分模块:先基于规则过滤高召回地捕捉可疑行为,再用 LLM 判断意图,一旦检测到作弊,系统会拦截调用并返回假信息,但允许 rollout 继续,避免崩溃。
| 基准 | GLM-5.2 | GLM-5.1 | Qwen3.7-Max | MiniMax M3 | DeepSeek-V4-Pro | Claude Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|---|---|
| 推理 | ||||||||
| HLE | 40.5 | 31 | 41.4 | 37 | 37.7 | 49.8* | 41.4* | 45 |
| AIME 2026 | 99.2 | 95.3 | 97 | - | 94.6 | 95.7 | 98.3 | 98.2 |
| GPQA-Diamond | 91.2 | 86.2 | 90 | 93 | 90.1 | 93.6 | 93.6 | 94.3 |
| 编码 | ||||||||
| SWE-bench Pro | 62.1 | 58.4 | 60.6 | 59 | 55.4 | 69.2 | 58.6 | 54.2 |
| Terminal-Bench 2.1 | 81.0 | 63.5 | 75 | 65 | 64 | 85 | 84 | 74 |
| FrontierSWE | 74.4 | 30.5 | - | - | 29.0 | 75.1 | 72.6 | 39.6 |
| PostTrainBench | 34.3 | 20.1 | - | - | - | 37.2 | 28.4 | 21.6 |
| SWE-Marathon | 13.0 | 1.0 | - | - | - | 26.0 | 12.0 | 4.0 |
| 代理 | ||||||||
| MCP-Atlas | 76.8 | 71.8 | 76.4 | 74.2 | 73.6 | 77.8 | 75.3 | 69.2 |
| Tool-Decathlon | 48.2 | 40.7 | - | - | 52.8 | 59.9 | 55.6 | 48.8 |
GLM-5.2 已开源,权重可在 HuggingFace 和 ModelScope 获取。支持 transformers、vLLM、SGLang 等推理框架。也可在 Z.ai 上直接试用。开发者可在 ZCode、Claude Code 等编码代理工具中使用,设置模型名为 "GLM-5.2"(或 GLM-5.2[1m] 启用 100 万上下文)。
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断