Cohere 发布 North Mini Code：首款开发者模型

产品2026年6月8日· 原作者：Hugging Face· 6 分钟阅读436 阅读

Cohere 发布 North Mini Code，一款 30B 参数的混合专家模型（3B 活跃参数），专为 AI 智能体编程任务设计。在 Artificial Analysis 编码指数上以 33.4 分超越同类模型。采用两阶段 SFT 和基于验证奖励的强化学习，在 SWE-Bench 和 Terminal-Bench 表现出色，已基于 Apache 2.0 开源。

Cohere 今日发布了 North Mini Code，这是其新模型系列的首款产品，专为 AI 智能体（Agent）软件工程任务设计。该模型参数量为 30B，采用混合专家（MoE）架构，每 token 仅激活 3B 参数。模型已基于 Apache 2.0 许可证在 Hugging Face 开源。

Figure 1: North Mini Code 在 Agent 编程任务与复杂代码生成基准上的性能对比

在 Artificial Analysis 的编码指数中，North Mini Code 得分 33.4，超越 Qwen3.5（35B-A3B）、Gemma 4（26B-A4B）、Devstral Small 2（24B 稠密）等模型，甚至优于更大模型如 Nemotron 3 Super（120B-A12B）和 Mistral Small 4（119B-A6B）。在同尺寸开源编码模型中位列前茅。

架构

Figure 2: 混合专家 Transformer 解码器架构

North Mini Code 是基于解码器的稀疏 MoE Transformer。它采用高效的注意力实现，以 3:1 的比例交错使用滑动窗口注意力（RoPE 位置编码）和全局注意力（无位置编码）。前馈网络为 MoE 块，包含 128 个专家，每 token 激活 8 个。每个专家使用 SwiGLU 激活。路由器在 top-k 选择前对 logits 应用 sigmoid 激活。此外，在稀疏层之前增加了一个稠密层。

后训练：聚焦代码 excellence

Figure 3: 后训练流程：两阶段 SFT 加 Agent RLVR

Cohere 采用两阶段级联监督微调（SFT）加基于验证奖励的强化学习（RLVR）。第一阶段 SFT 数据中，代码数据占可训练 token 的 70%（其中 43% 为 Agent 工具使用数据，27% 为单轮竞赛/科学编程数据）。第二阶段 SFT 仅使用 Agent 和推理驱动样本，共 45 亿 token，代码数据占 61%。这些数据来自真实仓库的软件工程任务和终端 Agent 任务，总计超过 7 万个可验证任务，覆盖约 5000 个仓库，并已去重避免评估泄露。

上下文长度分别为 64K 和 128K。这种“从短到长”的级联方法避免了数据分布冲突。最终 SFT 模型在 SWE-Bench Verified 上达到 80.2% pass@10，在 Terminal-Bench v2 上达到 55.1% pass@10。

跨评估框架的鲁棒性

理解不同框架（如 SWE-Agent、mini-SWE-Agent、OpenCode）的差异至关重要。Cohere 在第二阶段 SFT 中仅引入少量（6%）额外框架数据，就使 OpenCode 框架下性能提升 10%，同时保持 SWE-Agent 性能不降。这表明跨框架迁移可以低成本获得。包含少量（<20%）纯文本格式数据即可让模型自然泛化到不同终端框架。

Agent 编程的异步强化学习

Agent 编程的 rollout 长度长且差异大，最慢的轨迹往往是中位数的十倍。Cohere 采用异步 RL 循环：一个训练器与 vLLM 并行，vLLM 持续提供 rollout。策略权重每 K=4 步导出一次。使用窗口 FIFO 队列避免学习者等待最长 rollout。训练使用 CISPO 目标（token 级重要性采样），区别于 PPO 和 GRPO。

Figure 5: 多环境 RL 训练提升基准性能

单次多环境在线 RL 训练同时覆盖终端任务和软件工程任务。每批 512 个 rollout，每个 prompt 采样 8 个。RLVR 训练使最终模型在 Terminal-Bench v2 的 pass@1 提升 7.9 个百分点，在 SWE-Bench 提升 3.0 个百分点。联合训练强于单独训练，且泛化更好。模型轨迹更短，无效工具调用减少，重复调用减少。