DeepSeek 发布开源 FlashMLA:为 AI 模型加速赋能
中国人工智能初创公司 DeepSeek 在周一发布了 FlashMLA,这是一个针对英伟达 Hopper GPU 优化的开源多头潜在注意力 (MLA) 解码内核,作为其 R1 模型成功的延续。可以将 FlashMLA 视为一个高效的翻译器和 AI 模型的加速器,帮助它们在对话中更快地响应,并改善从聊天机器人到语音助手和 AI 驱动的搜索工具等一切。
此次发布是 DeepSeek 开源周的一部分,突出了其通过社区驱动的创新来提高 AI 性能和可访问性的努力。
DeepSeek 在 X 上的一篇帖子中表示:
“很荣幸与大家分享 FlashMLA——我们为 Hopper GPU 优化的高效 MLA 解码内核,针对可变长度序列进行了优化,现已投入生产。”
FlashMLA 的设计旨在最大限度地提高 AI 效率。它支持 BF16 精度,使用带 64 块大小的分页 KV 缓存,并在 H800 GPU 上提供 3000 GB/s 内存带宽和 580 TFLOPS 的顶级性能。
真正的魔力在于它如何处理可变长度序列。这显着降低了计算负载,同时加快了 AI 性能——这引起了 AI 开发人员和研究人员的关注。
FlashMLA 的关键特性
-
高性能:FlashMLA 在 H800 SXM5 GPU 上利用 CUDA 12.6,实现了高达 3000 GB/s 的内存带宽和 580 TFLOPS 的计算吞吐量。
-
针对可变长度序列优化:旨在高效地处理可变长度序列,增强 AI 应用中的解码过程。
-
BF16 支持和分页 KV 缓存:结合 BF16 精度和块大小为 64 的分页键值缓存,减少大规模模型推理过程中的内存开销。
FlashMLA 如何提升 AI 性能
🚀 更快的响应:AI 模型通常在生成回复之前处理信息。FlashMLA 使这个过程变得更快,改善了响应时间,特别是对于更长的对话。
🧠 处理扩展对话而不会出现延迟:AI 聊天机器人将对话历史存储在内存 (KV 缓存) 中。FlashMLA 对此进行了优化,确保 AI 能够跟踪讨论而不会减慢速度或过载硬件。
💻 针对高端 AI 系统优化:为英伟达 Hopper 系列 GPU 打造,FlashMLA 在高级 AI 硬件上以峰值效率运行,使其成为大规模应用的理想解决方案。
FlashMLA 的重要性
由于 FlashMLA 是开源的,AI 开发人员可以免费使用它,改进和构建其功能。这意味着更快、更智能的 AI 工具——无论是用于聊天机器人、翻译软件还是 AI 生成的内容。
现实生活中的例子
想象一下:你正在与一个客户服务机器人聊天。如果没有 FlashMLA,每次回复之前都会有明显的停顿。有了 FlashMLA,回复会立即出现,使对话感觉无缝衔接——几乎就像与真人交谈一样。
最终,DeepSeek 推动开源 AI 创新的努力可能会为更大的进步铺平道路,为开发人员提供工具,将 AI 性能推向新的高度。