Cohere 发布 North Mini Code,一款 30B 参数的混合专家模型(3B 活跃参数),专为 AI 智能体编程任务设计。在 Artificial Analysis 编码指数上以 33.4 分超越同类模型。采用两阶段 SFT 和基于验证奖励的强化学习,在 SWE-Bench 和 Terminal-Bench 表现出色,已基于 Apache 2.0 开源。
Cohere 今日发布了 North Mini Code,这是其新模型系列的首款产品,专为 AI 智能体(Agent)软件工程任务设计。该模型参数量为 30B,采用混合专家(MoE)架构,每 token 仅激活 3B 参数。模型已基于 Apache 2.0 许可证在 Hugging Face 开源。

在 Artificial Analysis 的编码指数中,North Mini Code 得分 33.4,超越 Qwen3.5(35B-A3B)、Gemma 4(26B-A4B)、Devstral Small 2(24B 稠密)等模型,甚至优于更大模型如 Nemotron 3 Super(120B-A12B)和 Mistral Small 4(119B-A6B)。在同尺寸开源编码模型中位列前茅。

North Mini Code 是基于解码器的稀疏 MoE Transformer。它采用高效的注意力实现,以 3:1 的比例交错使用滑动窗口注意力(RoPE 位置编码)和全局注意力(无位置编码)。前馈网络为 MoE 块,包含 128 个专家,每 token 激活 8 个。每个专家使用 SwiGLU 激活。路由器在 top-k 选择前对 logits 应用 sigmoid 激活。此外,在稀疏层之前增加了一个稠密层。

Cohere 采用两阶段级联监督微调(SFT)加基于验证奖励的强化学习(RLVR)。第一阶段 SFT 数据中,代码数据占可训练 token 的 70%(其中 43% 为 Agent 工具使用数据,27% 为单轮竞赛/科学编程数据)。第二阶段 SFT 仅使用 Agent 和推理驱动样本,共 45 亿 token,代码数据占 61%。这些数据来自真实仓库的软件工程任务和终端 Agent 任务,总计超过 7 万个可验证任务,覆盖约 5000 个仓库,并已去重避免评估泄露。
上下文长度分别为 64K 和 128K。这种“从短到长”的级联方法避免了数据分布冲突。最终 SFT 模型在 SWE-Bench Verified 上达到 80.2% pass@10,在 Terminal-Bench v2 上达到 55.1% pass@10。
理解不同框架(如 SWE-Agent、mini-SWE-Agent、OpenCode)的差异至关重要。Cohere 在第二阶段 SFT 中仅引入少量(6%)额外框架数据,就使 OpenCode 框架下性能提升 10%,同时保持 SWE-Agent 性能不降。这表明跨框架迁移可以低成本获得。包含少量(<20%)纯文本格式数据即可让模型自然泛化到不同终端框架。
Agent 编程的 rollout 长度长且差异大,最慢的轨迹往往是中位数的十倍。Cohere 采用异步 RL 循环:一个训练器与 vLLM 并行,vLLM 持续提供 rollout。策略权重每 K=4 步导出一次。使用窗口 FIFO 队列避免学习者等待最长 rollout。训练使用 CISPO 目标(token 级重要性采样),区别于 PPO 和 GRPO。

单次多环境在线 RL 训练同时覆盖终端任务和软件工程任务。每批 512 个 rollout,每个 prompt 采样 8 个。RLVR 训练使最终模型在 Terminal-Bench v2 的 pass@1 提升 7.9 个百分点,在 SWE-Bench 提升 3.0 个百分点。联合训练强于单独训练,且泛化更好。模型轨迹更短,无效工具调用减少,重复调用减少。
Cohere 还构建了内部基准,在四种功能(代码解释、代码编辑、数据可视化、从零实现)上进行成对评估。RLVR 后的模型在代码编辑任务上提升显著,综合胜率 66.1%。

North Mini Code 模型已可在 OpenCode、Cohere API 以及 Hugging Face 获取(BF16 和 FP8 量化权重):bf16,fp8。
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断