加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
Moondream 今天从隐身模式中脱颖而出,获得了 450 万美元的种子前融资,并提出了一个激进的主张:在 AI 模型方面,小而精更胜一筹。这家由 Felicis Ventures、微软的 M12 GitHub 基金和 Ascend 支持的初创公司,构建了一个仅使用 16 亿个参数的视觉语言模型,其性能却与规模是其四倍的模型相媲美。
该公司的开源模型已经引起了广泛关注,下载量超过 200 万次,在 GitHub 上获得了 5100 颗星。“它之所以特别,是因为它是尺寸最小的模型之一,其准确性却出奇地高,而且运行得非常好,”Moondream 的首席执行官兼前 AWS 技术总监 Jay Allen 说。“它可以在任何地方轻松快速地运行。它甚至可以在 iOS、手机上运行。”
这家初创公司正在解决企业 AI 采用中日益增长的一个问题:云计算的巨额成本和隐私问题。Moondream 的方法允许 AI 模型在本地设备上运行,从智能手机到工业设备。
“随着 AI 越来越多地应用于各种应用程序,我认为我们正处于两难境地:一方面我们想要 AI 的所有好处,但另一方面我们并不一定想让我们的整个生活都暴露在云端,”Allen 告诉 VentureBeat。“我更倾向于在边缘进行尽可能多的操作,这样我就可以控制自己的隐私。”
早期采用者已经为这项技术找到了多种应用。零售商使用它通过移动扫描进行自动库存管理。运输公司将其用于车辆检查,而拥有隔离系统的制造工厂则在本地实施 AI 进行质量控制。
技术成就十分突出。最近的基准测试显示,Moondream2 在 VQAv2 上的准确率达到 80.3%,在 GQA 上的准确率达到 64.3%,与更大的模型相比具有竞争力。该系统的能效令人印象深刻,首席技术官 Vik Korrapati 指出,“每个令牌的消耗量约为每 10 亿个参数 0.6 焦耳。”
虽然大型科技公司专注于需要大量计算资源的大型模型,但 Moondream 则将目标锁定在实际应用上。“这个领域中的许多公司都专注于 AGI,这最终会成为一个很大的干扰,”Korrapati 说。“我们专注于感知问题,以及如何在开发人员需要的尺寸和形式因素下提供最先进的多模态功能。”
该公司现在推出了 Moondream 云服务,旨在简化开发,同时保持边缘部署的灵活性。“他们想要的是最简单的路径,从类似云的提供商开始,这样他们就可以随心所欲地玩耍,”Allen 说。“但一旦他们做到了这一点,他们就不想感觉自己被束缚住了。”
这种混合方法引起了开发人员的共鸣。该公司在开源社区中建立了强大的追随者,Allen 将此归功于他们的“黑客、开源精神”和透明的开发流程。
至于来自科技巨头的竞争,Allen 对 Moondream 的专注战略充满信心。“对于这些大型公司中的许多公司来说,这往往是他们 8000 个优先事项之一,”他说。“似乎没有多少公司像我们一样专注于提供围绕多模态的无缝开发人员体验。”
该公司预计在未来 12 个月内,视觉语言模型将在企业中得到广泛采用,但 Korrapati 警告说,“谈论 AI 的时间表是一场危险的游戏。”
凭借新获得的资金,Moondream 计划扩大团队规模,包括在西雅图总部招聘全栈工程师。该公司的下一个挑战将是扩展其技术,同时保持其早期成功所定义的效率和可访问性。