前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

Ring-1T:开源万亿思考模型,深度解析其训练与卓越性能

NEXTECH
Last updated: 2025年10月15日 上午7:40
By NEXTECH
Share
18 Min Read
SHARE

Ring-1T,心流之境,顿悟所生

万亿思考模型Ring-1T已正式发布并开源。开发者可通过Hugging Face、魔搭社区下载模型权重,或通过Ling Chat页面和ZenMux体验模型聊天功能及API调用。

Contents
Ring-1T,心流之境,顿悟所生持续进化的深度思考能力棒冰(icepop):为RL长周期训练“保驾护航”ASystem:自研RL框架“拿捏”万亿规模训练

基于上月底发布的 preview 版本,Ring-1T 通过持续扩展大规模可验证奖励强化学习(RLVR)训练,进一步激发了万亿基座的自然语言推理能力。同时,RLHF 训练也完善了模型的通用能力,使本次发布的 Ring-1T 在各项任务中展现出更均衡的性能。

Ring-1T 沿用 Ling 2.0 架构,基于拥有1T总参数和50B激活参数的 Ling-1T-base 基座进行训练,并支持最高 128K 上下文窗口。该模型依托自研的强化学习稳定训练方法icepop(棒冰)与高效强化学习系统ASystem(其中AReaL 框架已开源),实现了从百亿(Ring-mini-2.0)到千亿(Ring-flash-2.0)再到万亿(Ring-1T)的MoE 架构强化学习平稳扩展,显著提升了模型的深度思考与自然语言推理能力。

持续进化的深度思考能力

为评估 Ring-1T 的深度思考能力,研究团队选取了具有代表性的开源思考模型(Ring-1T-preview、DeepSeek-V3.1-Terminus-Thinking、Qwen-235B-A22B-Thinking-2507)和闭源API(Gemini-2.5-pro 以及 GPT-5-Thinking(High))作为参考。结果显示,相比于此前开源的 preview 版本,Ring-1T 在各项任务上表现更均衡。此外,Ring-1T 在数学竞赛(AIME 25、HMMT 25),代码生成(LiveCodeBench、CodeForce),逻辑推理(ARC-AGI-1)等高难推理基准上达到了开源领先水平;同时在综合任务(Arena-Hard-v2.0),医疗健康(HealthBench),创意写作(Creative Writing v3)上也展现出强大竞争力。

Ring-1T与竞品模型在各类高难度推理任务上的性能对比

尽管团队已对预训练、微调指令、强化学习提示词等所有阶段的训练数据进行了字符串和语义级别的基准任务污染过滤,但对于较早发布的基准任务,严格去污仍是当前业界难题之一。为了更客观地分析 Ring-1T 的深度思考能力,模型在今年7月举办的 IMO 2025(国际数学奥林匹克竞赛) 和上月初刚结束的 ICPC world finals 2025(国际大学生程序设计竞赛世界总决赛)中进行了测试。

You Might Also Like

Structured RAG重塑企业知识库:从模糊答案到精准洞察,解决RAG聚合与完整性挑战
阿里新研究:WorldVLA统一VLA与世界模型,引领具身智能新突破
掌握提示词四大核心要素:上下文、指令、数据、输出,AI文案高效创作秘诀
探索AI音频模型的无限潜能:从基础概念到实际应用

在 IMO 2025 的测试中,Ring-1T 被接入多智能体框架AWorld(https://github.com/inclusionAI/AWorld),并采用纯自然语言推理进行解题,测试方式与此前 preview 版本类似。结果显示,Ring-1T 仅用一次尝试即解出了第1、3、4、5题,达到了IMO银牌水平;在第三次尝试时,对第2题几何证明也给出了接近满分的证明过程。然而,在最难的第六题(IMO 2025 AI选手无法正确求解)中,模型答案收敛到与 Gemini 2.5 Pro 相同的 “4048”(正确答案为2112)。团队相信,通过持续优化,Ring-1T 未来有望达到 IMO金牌 水平。

Ring-1T在国际数学奥林匹克竞赛(IMO 2025)中的解题表现截图Ring-1T在国际数学奥林匹克竞赛(IMO 2025)中的解题表现截图Ring-1T在国际数学奥林匹克竞赛(IMO 2025)中的解题表现截图Ring-1T在国际数学奥林匹克竞赛(IMO 2025)中的解题表现截图Ring-1T在国际数学奥林匹克竞赛(IMO 2025)中的解题表现截图

在 ICPC world finals 2025 上,对 GPT-5-thinking、Gemini-2.5-pro 和 Ring-1T 进行对比测试,在允许三次尝试的模型直接解题测试中,Ring-1T 解出了5题(DFJKL),表现优于 Gemini-2.5-pro 的3题(DFK),略低于 GPT-5-thinking 的6题(CDEFKL)。这表明 Ring-1T 在国际顶级代码竞赛中展现出亮眼表现。未来,模型在上述比赛的解题轨迹有望开源,以促进社区共同优化该万亿思考模型的推理潜能。

棒冰(icepop):为RL长周期训练“保驾护航”

在 MoE 模型的强化学习训练中,训练和推理引擎之间的算子实现差异比 Dense 模型更为显著,尤其是在生成长序列和进行长周期训练时,这种差异会随着序列长度和训练步数的增加而逐渐拉大。实验结果表明,在较少的训练步数内,原始的 GRPO 算法可能开始崩溃。而 icepop(棒冰)算法通过带掩码的双向截断技术来修正分布,有效减小训练与推理阶段的差异,从而为急剧上升的训推差异“降温”。

GRPO与Icepop算法在训练过程中的训推差异对比图GRPO与Icepop算法训推差异最大值随训练步数变化的对比图

图1:GRPO训推差异随着训练成指数上升,icepop较为平稳;图2:训推差异最大值,GRPO随着训练上升非常明显,icepop维持在较低水位

ASystem:自研RL框架“拿捏”万亿规模训练

为保障万亿基座强化学习的稳定高效训练,团队自研了高性能强化学习系统——ASystem。ASystem采用SingleController + SPMD架构。在训推引擎方面,系统对万亿基座的显存管理和训推权重交换问题进行了精细优化。其基于自研的训推统一显存池技术,实现了显存透明卸载,高效释放显存碎片,有效降低了显存不足风险。通过 GPU 间 P2P 直接通信与原地更新等技术,实现了模型权重的秒级、零冗余交换。在RL训练框架上,ASystem构建了基于大规模 Serverless Sandbox 技术的混合奖励系统,该系统能以毫秒级速度启动,提供超过10余种语言的沙箱执行环境,并支撑高达 10K/s 的请求吞吐。AReaL 框架已开源,旨在通过技术开放加速开源社区的RL训练与研究工作。

TAGGED:AI推理Ring-1T大模型开源模型强化学习
Share This Article
Email Copy Link Print
Previous Article 20251015073829212.jpg 美司法部施压Meta移除ICE群组:科技巨头与言论自由的冲突
Next Article 天猫AI驱动测试全流程自动化变革实践:从人工到智能的效率革命
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

LangExtract工作流程示意图
AI 前沿技术

LangExtract:大模型文本提炼工具功能与工作流程详解

2025年11月1日
通过NotebookLM和NapkinAI从研究论文中提取里程碑并转化为时间线图表。
大模型与工程化

AI赋能教育:NotebookLM教学实践与创新应用指南

2025年9月22日
大模型‘Haha Moments’类型示例
AI 前沿技术

大模型会替代搜索引擎吗?深度探讨AI对未来信息检索的影响与融合趋势

2025年10月17日
SmartResume系统工作流程示意图
AI 前沿技术

阿里开源SmartResume:智能简历解析系统的工作原理与性能优势

2025年11月7日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up