JetBrains开源Mellum2模型,总参数12B,每个token仅激活2.5B参数,推理速度比同类模型快2倍以上。该模型专为低延迟文本和代码任务设计,适用于路由、RAG、子智能体等高频生产场景。
JetBrains今日发布了Mellum2,一个开源的混合专家模型(MoE),专为低延迟的文本和代码工作负载优化。Mellum最初是一个代码补全模型,而Mellum2将能力扩展到了更广泛的自然语言和软件工程任务,同时保持高效的推理和易部署性。
现代AI系统越来越依赖多次模型调用:路由、检索、摘要、规划、验证和工具使用。这些操作中的许多对延迟敏感,且不需要调用最大规模的模型。Mellum2正是为这些场景而生。

在技术报告中,JetBrains在代码生成、推理、科学和数学基准上评估了Mellum2。Mellum2在与同等规模的开源模型竞争的同时,推理速度提升超过2倍,使其适用于高吞吐量的生产工作负载。
Mellum2采用混合专家架构:
| 模型 | 总参数 | 每token激活参数 | 模态 | 许可证 |
|---|---|---|---|---|
| Mellum2 | 12B | 2.5B | 文本和代码 | Apache 2.0 |
MoE架构在保持高模型容量的同时,每个token仅激活部分参数。这使得推理更高效,有助于降低实时工作负载的服务成本。Mellum2特意专注于文本和代码而非多模态任务,这种专精保持了模型的紧凑性,使其在软件工程工作负载中高效运行。
Mellum2可作为轻量级路由和编排模型,用于多模型系统中的提示分类、工具选择和中间控制流步骤。
该模型非常适合延迟敏感的检索管道,包括上下文压缩、摘要和检索后处理。
Mellum2可用于智能体的子任务,如规划、验证、转换和上下文准备,减少对更大模型的调用。
由于Mellum2开源且服务高效,可部署在涉及专有代码或内部数据的自托管环境中。
随着AI系统成熟,最有效的架构正变得不那么单一。单个前沿模型可能很强大,但生产系统通常需要多个专业组件协同工作:检索器、路由器、代码感知模型、验证器、工具调用者和更大的推理模型。JetBrains将Mellum2视为一个“焦点”模型:一个快速、范围明确的模型,专为更大AI系统中的高频任务优化。目标不是取代堆栈中的每个模型,而是让整个堆栈更快、更便宜、更容易控制。
如果你正在构建面向软件工程的AI系统——无论是IDE内、RAG管道中、智能体工作流部分,还是私有基础设施上——Mellum2已经在Hugging Face上的模型集合中可用,欢迎尝试。
详细架构、训练设置、基准测试和评估方法,请参阅完整技术报告:https://arxiv.org/pdf/2605.31268
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断