前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

Cohere 发布 North Mini Code:首款开发者模型

产品2026年6月8日· 原作者:Hugging Face· 6 分钟阅读0 阅读

Cohere 发布 North Mini Code,一款 30B 参数的混合专家模型(3B 活跃参数),专为 AI 智能体编程任务设计。在 Artificial Analysis 编码指数上以 33.4 分超越同类模型。采用两阶段 SFT 和基于验证奖励的强化学习,在 SWE-Bench 和 Terminal-Bench 表现出色,已基于 Apache 2.0 开源。

Cohere 今日发布了 North Mini Code,这是其新模型系列的首款产品,专为 AI 智能体(Agent)软件工程任务设计。该模型参数量为 30B,采用混合专家(MoE)架构,每 token 仅激活 3B 参数。模型已基于 Apache 2.0 许可证在 Hugging Face 开源。

Figure 1: North Mini Code 在 Agent 编程任务与复杂代码生成基准上的性能对比

在 Artificial Analysis 的编码指数中,North Mini Code 得分 33.4,超越 Qwen3.5(35B-A3B)、Gemma 4(26B-A4B)、Devstral Small 2(24B 稠密)等模型,甚至优于更大模型如 Nemotron 3 Super(120B-A12B)和 Mistral Small 4(119B-A6B)。在同尺寸开源编码模型中位列前茅。

架构

Figure 2: 混合专家 Transformer 解码器架构

North Mini Code 是基于解码器的稀疏 MoE Transformer。它采用高效的注意力实现,以 3:1 的比例交错使用滑动窗口注意力(RoPE 位置编码)和全局注意力(无位置编码)。前馈网络为 MoE 块,包含 128 个专家,每 token 激活 8 个。每个专家使用 SwiGLU 激活。路由器在 top-k 选择前对 logits 应用 sigmoid 激活。此外,在稀疏层之前增加了一个稠密层。

后训练:聚焦代码 excellence

Figure 3: 后训练流程:两阶段 SFT 加 Agent RLVR

Cohere 采用两阶段级联监督微调(SFT)加基于验证奖励的强化学习(RLVR)。第一阶段 SFT 数据中,代码数据占可训练 token 的 70%(其中 43% 为 Agent 工具使用数据,27% 为单轮竞赛/科学编程数据)。第二阶段 SFT 仅使用 Agent 和推理驱动样本,共 45 亿 token,代码数据占 61%。这些数据来自真实仓库的软件工程任务和终端 Agent 任务,总计超过 7 万个可验证任务,覆盖约 5000 个仓库,并已去重避免评估泄露。

上下文长度分别为 64K 和 128K。这种“从短到长”的级联方法避免了数据分布冲突。最终 SFT 模型在 SWE-Bench Verified 上达到 80.2% pass@10,在 Terminal-Bench v2 上达到 55.1% pass@10。

跨评估框架的鲁棒性

理解不同框架(如 SWE-Agent、mini-SWE-Agent、OpenCode)的差异至关重要。Cohere 在第二阶段 SFT 中仅引入少量(6%)额外框架数据,就使 OpenCode 框架下性能提升 10%,同时保持 SWE-Agent 性能不降。这表明跨框架迁移可以低成本获得。包含少量(<20%)纯文本格式数据即可让模型自然泛化到不同终端框架。

Agent 编程的异步强化学习

Agent 编程的 rollout 长度长且差异大,最慢的轨迹往往是中位数的十倍。Cohere 采用异步 RL 循环:一个训练器与 vLLM 并行,vLLM 持续提供 rollout。策略权重每 K=4 步导出一次。使用窗口 FIFO 队列避免学习者等待最长 rollout。训练使用 CISPO 目标(token 级重要性采样),区别于 PPO 和 GRPO。

Figure 5: 多环境 RL 训练提升基准性能

单次多环境在线 RL 训练同时覆盖终端任务和软件工程任务。每批 512 个 rollout,每个 prompt 采样 8 个。RLVR 训练使最终模型在 Terminal-Bench v2 的 pass@1 提升 7.9 个百分点,在 SWE-Bench 提升 3.0 个百分点。联合训练强于单独训练,且泛化更好。模型轨迹更短,无效工具调用减少,重复调用减少。

内部人类评估

Cohere 还构建了内部基准,在四种功能(代码解释、代码编辑、数据可视化、从零实现)上进行成对评估。RLVR 后的模型在代码编辑任务上提升显著,综合胜率 66.1%。

Figure 6: 人类偏好评估结果

快速上手

North Mini Code 模型已可在 OpenCode、Cohere API 以及 Hugging Face 获取(BF16 和 FP8 量化权重):bf16,fp8。


原文链接:Hugging Face
本文由前途科技编辑整理

标签:Cohere开源

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

Claude Fable 5与Mythos 5:更强能力与更严安全
TOP1

Claude Fable 5与Mythos 5:更强能力与更严安全

英伟达与韩国巨头达成多项AI合作
TOP2

英伟达与韩国巨头达成多项AI合作

3

iOS 27 AI 功能需 12GB 内存,基础 iPhone 17 无缘

21小时前
iOS 27 AI 功能需 12GB 内存,基础 iPhone 17 无缘
4

山姆·奥特曼的虹膜扫描初创公司裁员

21小时前
山姆·奥特曼的虹膜扫描初创公司裁员
5

美国 FDA 20 年来首次批准新型防晒成分

1小时前
美国 FDA 20 年来首次批准新型防晒成分
6

OpenAI愿景:AI应惠及所有人

2小时前
OpenAI愿景:AI应惠及所有人
7

OpenAI 和 Anthropic 罕见联合呼吁成立全球 AI 监管机构

1小时前
OpenAI 和 Anthropic 罕见联合呼吁成立全球 AI 监管机构
8

Meta放宽审核后国会威胁暴增四倍

1小时前
Meta放宽审核后国会威胁暴增四倍
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款