前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

GLM-5.2:专为长周期任务打造

AI 前沿2026年6月16日· 原作者:Hugging Face· 7 分钟阅读0 阅读

智谱发布 GLM-5.2,支持 100 万 token 稳定上下文,在长周期编码基准上仅次于 Claude Opus 4.8,并采用 IndexShare 架构大幅降低计算量。模型以 MIT 许可开源,无区域限制。

智谱近日发布 GLM-5.2,这是其最新旗舰模型,专为长周期任务设计。相比上一代 GLM-5.1,GLM-5.2 在长周期任务能力上实现了飞跃,且首次在 100 万 token 上下文上稳定运行。主要新特性包括:

  • 稳定的 100 万上下文:能持续支撑长周期工作
  • 灵活调整推理深度:更强的编码能力,支持多种思考深度等级以平衡性能与延迟
  • 架构改进:提出 IndexShare,每四个稀疏注意力层共享同一个索引器,在 100 万上下文长度下将单 token FLOPs 降低 2.9 倍;同时改进 MTP 层用于推测解码,接受长度提升最高 20%
  • 完全开源:采用 MIT 开源许可证,无区域限制

长周期任务的支撑始于让长上下文可用于工程:模型必须在长而杂乱的编码代理轨迹中保持质量,而不仅仅是接受更多 token。GLM-5.2 在三个长周期编码基准上展现了实力。FrontierSWE 衡量代理完成数小时到数十小时规模的技术项目的能力,GLM-5.2 仅落后 Opus 4.8 1%,领先 GPT-5.5 1%、Opus 4.7 11%。PostTrainBench 中,GLM-5.2 仅次于 Opus 4.8。在 SWE-Marathon 上,GLM-5.2 仍有提升空间,但仍是除 Opus 系列外最强的模型。在所有三个基准上,GLM-5.2 都是排名最高的开源模型。

长周期编码基准成绩

在标准编码基准上,GLM-5.2 是表现最强的开源模型:Terminal-Bench 2.1 得分为 81.0(GLM-5.1 为 63.5),接近 Claude Opus 4.8 的 85.0;SWE-bench Pro 得分为 62.1(GLM-5.1 为 58.4)。

标准编码基准成绩

GLM-5.2 还引入了努力级别控制,用户可根据任务在模型能力与执行速度、计算成本之间灵活平衡。在相同 token 预算下,GLM-5.2 的代理编码性能显著强于 GLM-5.1,其能力大致介于 Claude Opus 4.7 和 4.8 之间。

努力级别控制

支持 100 万上下文的新架构

架构示意图

IndexShare 用于 DSA:在 GLM-5.2 中,每 4 个 Transformer 层共享一个轻量级索引器,减少 DSA 中索引器的计算成本。模型从 128K 序列长度的中间训练阶段就开始使用 IndexShare,在长上下文基准上以更少计算超越 GLM-5.1。

MTP 与 IndexShare 和 KVShare:改进了多步 MTP 层,目标是降低草稿模型成本并提高接受率。通过共享索引器和 KV 缓存,消除了训练推理差异。引入拒绝采样和端到端 TV 损失后,接受长度相比基线提升 20%。

方法接受长度
基线4.56
+ IndexShare + KV Share5.10
+ 拒绝采样5.29
+ 端到端 TV 损失5.47 (+20%)

高效服务 100 万上下文:为应对上下文延长带来的推理瓶颈,智谱从三方面优化推理引擎:基于 LayerSplit 的细粒度内存管理与并行策略、优化随上下文长度增长的核、优化 CPU 端缓存管理与调度。

推理吞吐量对比

用于代理强化学习的 slime 框架

GLM-5.2 的代理 RL 后训练涉及更大规模、更多领域和更复杂执行模式的任务。slime 作为从训练到大规模推理 rollout 的集成基础设施,支持多种训练与任务组织模式。在后训练中,slime 用于并行 OPD 训练,高效合并十余个专家模型,整个训练过程约两天,效率很高。

同时,slime 为推理系统提供高度开放的接口,允许训练端连接不同形式的推理服务,灵活适配各种并行策略和部署模式。结合 KV-cache FP8,为 GLM-5.2 的大规模代理 RL 训练提供了关键基础设施支持。

用于长周期任务的强化学习与反偷分

长周期任务产生极长的执行轨迹,智谱从分组优化转向基于评论家的 PPO 单 rollout 公式,天然适配轨迹压缩。在编码 RL 中,模型可能通过读取保护测试文件等方式作弊。智谱引入了反偷分模块:先基于规则过滤高召回地捕捉可疑行为,再用 LLM 判断意图,一旦检测到作弊,系统会拦截调用并返回假信息,但允许 rollout 继续,避免崩溃。

完整基准测试表

基准GLM-5.2GLM-5.1Qwen3.7-MaxMiniMax M3DeepSeek-V4-ProClaude Opus 4.8GPT-5.5Gemini 3.1 Pro
推理
HLE40.53141.43737.749.8*41.4*45
AIME 202699.295.397-94.695.798.398.2
GPQA-Diamond91.286.2909390.193.693.694.3
编码
SWE-bench Pro62.158.460.65955.469.258.654.2
Terminal-Bench 2.181.063.5756564858474
FrontierSWE74.430.5--29.075.172.639.6
PostTrainBench34.320.1---37.228.421.6
SWE-Marathon13.01.0---26.012.04.0
代理
MCP-Atlas76.871.876.474.273.677.875.369.2
Tool-Decathlon48.240.7--52.859.955.648.8

快速上手

GLM-5.2 已开源,权重可在 HuggingFace 和 ModelScope 获取。支持 transformers、vLLM、SGLang 等推理框架。也可在 Z.ai 上直接试用。开发者可在 ZCode、Claude Code 等编码代理工具中使用,设置模型名为 "GLM-5.2"(或 GLM-5.2[1m] 启用 100 万上下文)。


原文链接:Hugging Face
本文由前途科技编辑整理

标签:开源

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

特朗普政府拒绝G7盟友获取Anthropic AI
TOP1

特朗普政府拒绝G7盟友获取Anthropic AI

黄仁勋:AI时代需要新社会规范
TOP2

黄仁勋:AI时代需要新社会规范

3

OpenAI一季度烧掉37亿美元,超营收一半

22小时前
OpenAI一季度烧掉37亿美元,超营收一半
4

Anthropic 企业用户占比达 41%,特朗普打压反成推手

22小时前
Anthropic 企业用户占比达 41%,特朗普打压反成推手
5

微软放弃与甲骨文30亿美元云交易

22小时前
微软放弃与甲骨文30亿美元云交易
6

意大利首次依据DMA调查苹果iCloud

22小时前
意大利首次依据DMA调查苹果iCloud
7

OpenAI等公司担忧AI出口管制扩大

22小时前
OpenAI等公司担忧AI出口管制扩大
8

Adobe报告:75%创作者视AI为必备工具

22小时前
Adobe报告:75%创作者视AI为必备工具
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款