订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
MiniMax,这家新加坡公司,或许在美国最出名的是其背后的 Hailuo,一个与 Runway、OpenAI 的 Sora 和 Luma AI 的 Dream Machine 竞争的逼真、高分辨率生成式 AI 视频模型。
但这家公司还有更多秘密武器:例如,今天它宣布发布并开源 MiniMax-01 系列,这是一个新的模型家族,旨在处理超长上下文并增强 AI 代理开发。
该系列包括 **MiniMax-Text-01**,一个基础大型语言模型 (LLM),以及 **MiniMax-VL-01**,一个视觉多模态模型。
巨大的上下文窗口
LLM MiniMax-Text-o1 尤其引人注目,因为它在上下文窗口中可以处理多达 400 万个标记,相当于一个小图书馆的书籍数量。上下文窗口是指 LLM 在一次输入/输出交换中可以处理多少信息,其中单词和概念表示为数字“标记”,这是 LLM 对其训练数据的内部数学抽象。
虽然谷歌之前凭借其 Gemini 1.5 Pro 模型和 200 万个标记的上下文窗口领先,但 MiniMax 却将这一数字翻了一番!
正如 MiniMax 今天在其官方 X 账户上发布的那样:“MiniMax-01 有效地处理多达 400 万个标记,是其他领先模型容量的 20 到 32 倍。我们相信 MiniMax-01 有望在未来一年支持代理相关应用的预期激增,因为代理越来越需要扩展的上下文处理能力和持续的记忆。”
它们现在可以在 Hugging Face 和 Github 上下载,使用自定义 MiniMax 许可证,用户可以直接在 Hailuo AI Chat(ChatGPT/Gemini/Claude 的竞争对手)上尝试,并通过 MiniMax 的应用程序编程接口 (API),第三方开发人员可以将他们自己的独特应用程序链接到它们。
MiniMax 以具有竞争力的价格提供文本和多模态处理的 API:
- 每 100 万个输入标记 0.2 美元
- 每 100 万个输出标记 1.1 美元
相比之下,OpenAI 的 GPT-4o 通过其 API 每 100 万个输入标记收费 2.50 美元,贵了惊人的 12.5 倍。
MiniMax 还集成了一个具有 32 个专家的专家混合 (MoE) 框架,以优化可扩展性。这种设计在保持关键基准的竞争性能的同时,平衡了计算和内存效率。
MiniMax-01 的核心是 Lightning Attention 机制,这是一种传统 Transformer 架构的创新替代方案。
这种设计显着降低了计算复杂度。这些模型包含 4560 亿个参数,每次推理激活 459 亿个参数。
与早期的架构不同,Lightning Attention 采用线性层和传统 SoftMax 层的混合,为长输入实现了近线性复杂度。对于像我这样的新手来说,SoftMax 是将输入数字转换为概率的转换,这些概率加起来为 1,这样 LLM 就可以近似地估计输入的哪种含义最有可能。
MiniMax 已重建其训练和推理框架以支持 Lightning Attention 架构。主要改进包括:
- MoE 全对全通信优化:减少了 GPU 间通信开销。
- Varlen 环形注意力:最大限度地减少了长序列处理的计算浪费。
- 高效的内核实现:定制的 CUDA 内核提高了 Lightning Attention 的性能。
这些进步使 MiniMax-01 模型能够用于现实世界的应用,同时保持经济实惠。
在主流文本和多模态基准测试中,MiniMax-01 与 GPT-4 和 Claude-3.5 等顶级模型相媲美,在长上下文评估中表现尤为出色。值得注意的是,MiniMax-Text-01 在使用 400 万个标记的上下文的 Needle-In-A-Haystack 任务中取得了 100% 的准确率。
这些模型还表明,随着输入长度的增加,性能下降最小。
MiniMax 计划定期更新以扩展模型的功能,包括代码和多模态增强。
该公司将开源视为为不断发展的 AI 代理领域构建基础 AI 功能的一步。
预计 2025 年将成为 AI 代理的变革之年,对持续记忆和高效的代理间通信的需求正在增加。MiniMax 的创新旨在应对这些挑战。
MiniMax 邀请开发人员和研究人员探索 MiniMax-01 的功能。除了开源之外,其团队还欢迎技术建议和合作咨询,请发送邮件至 **model@minimaxi.com**。
凭借其对经济高效且可扩展的 AI 的承诺,MiniMax 将自己定位为塑造 AI 代理时代的关键参与者。MiniMax-01 系列为开发人员提供了激动人心的机会,让他们突破长上下文 AI 的能力边界。