Exo Labs 助力 Mac M4 运行开源 AI 模型

订阅我们的每日和每周新闻通讯，获取有关行业领先人工智能报道的最新更新和独家内容。了解更多

在生成式人工智能领域，苹果的努力似乎主要集中在移动端，尤其是运行在 iOS 18 上的 Apple Intelligence，iOS 18 是 iPhone 的最新操作系统。

但事实证明，新款 Apple M4 芯片——搭载于 2024 年 10 月底发布的新款 Mac Mini 和 Macbook Pro 机型中——是运行迄今为止发布的最强大的开源基础大型语言模型 (LLM) 的绝佳硬件，包括 Meta 的 Llama-3.1 405B、Nvidia 的 Nemotron 70B 和 Qwen 2.5 Coder-32B。

事实上，Exo Labs 的联合创始人 Alex Cheema 已经做到了这一点。Exo Labs 是一家于 2024 年 3 月成立的初创公司，其目标是通过开源多设备计算集群“使人工智能的访问民主化”。

正如他最近在社交网络 X 上分享的那样，总部位于迪拜的 Cheema 将四台 Mac Mini M4 设备（零售价 599.00 美元）和一台 Macbook Pro M4 Max（零售价 1,599.00 美元）与 Exo 的开源软件连接起来，运行阿里巴巴的软件开发人员优化型 LLM Qwen 2.5 Coder-32B。

毕竟，Cheema 的集群总成本约为 5,000 美元，这仍然远低于单台备受追捧的 NVidia H100 GPU（零售价 25,000-30,000 美元）。

虽然许多人工智能用户习惯于访问 OpenAI 的 ChatGPT 等网站或连接到网络的移动应用程序，但将人工智能模型在用户或企业控制和拥有的设备上本地运行，无需网络连接，在成本、隐私、安全和行为方面都具有难以置信的优势。

Cheema 表示，Exo Labs 仍在努力构建其企业级软件产品，但他知道已经有几家公司正在使用 Exo 软件运行本地计算集群以进行人工智能推理，并且他相信这种趋势将在未来几年从个人扩展到企业。目前，任何具有编码经验的人都可以访问 Exo 的 Github 代码库 (repo) 并自行下载软件。

“如今的人工智能方式涉及训练这些需要巨大计算能力的超大型模型，”Cheema 在今天早些时候接受 VentureBeat 的视频电话采访时解释道。“你需要花费数十亿美元的 GPU 集群，所有这些集群都连接在一个拥有高速互连的单一数据中心中，运行长达六个月的训练课程。大型人工智能模型的训练高度集中，仅限于少数能够负担得起所需计算规模的公司。即使在训练之后，有效地运行这些模型也是另一个集中式过程。”

相比之下，Exo 希望“让人们拥有自己的模型并控制他们的行为。如果模型只在大型数据中心的服务器上运行，那么您将失去对发生情况的透明度和控制。”

事实上，他举了一个例子，他将自己直接的私人信息输入本地 LLM，以便能够向它询问有关这些对话的问题，而不必担心它们泄露到开放网络上。

“就我个人而言，我想在我的消息上使用人工智能来做一些事情，比如问‘我今天有紧急消息吗？’这不是我想发送给 GPT 这样的服务的东西，”他指出。

Exo 最近的成功要归功于 Apple 的 M4 芯片——普通版、Pro 版和 Max 版都提供了苹果称之为“世界上最快的 GPU 内核”以及单线程任务的最佳性能（那些在单个 CPU 内核上运行的任务，而 M4 系列拥有 10 个或更多内核）。

基于 M4 的规格早些时候曾被预告和泄露，并且 iPad 中已经提供了一个版本，Cheema 对 M4 能够很好地满足他的目的充满信心。

“我已经知道，‘我们将能够运行这些模型，’”Cheema 告诉 VentureBeat。

事实上，根据 X 上分享的数据，Exo Labs 的 Mac Mini M4 集群以每秒 18 个令牌的速度运行 Qwen 2.5 Coder 32B，以每秒 8 个令牌的速度运行 Nemotron-70B。（令牌是字母、单词和数字字符串的数字表示——人工智能的本机语言。）

Exo 还使用早期的 Mac 硬件取得了成功，将两台 Macbook Pro M3 计算机连接起来，以超过 5 个令牌/秒的速度运行 Llama 3.1-405B 模型。

这个演示表明，人工智能训练和推理工作负载可以在不依赖云基础设施的情况下有效地处理，从而使人工智能更容易被注重隐私和成本的消费者和企业所使用。对于在高度监管行业工作的企业，甚至那些只是注重成本但仍然希望利用最强大的人工智能模型的企业来说，Exo Labs 的演示展示了一条可行的前进道路。

对于具有高度实验容忍度的企业，Exo 提供定制服务，包括在 Mac 设备上安装和交付其软件。完整的企业产品预计将在明年推出。

Cheema 是一位牛津大学物理学毕业生，他之前曾在 web3 和加密货币公司从事分布式系统工程工作，他在 2024 年 3 月发现自己被自己计算机上机器学习研究的缓慢进展所阻碍，这促使他创办了 Exo Labs。

“最初，这只是一个好奇心，”Cheema 告诉 VentureBeat。“我正在做一些机器学习研究，我想加快我的研究速度。在我的旧款 MacBook 上运行东西需要很长时间，所以我心想，‘好吧，我周围还有一些其他设备。也许是朋友们的一些旧设备……有没有办法使用他们的设备？’这样一来，理想情况下，原本需要一天才能完成的事情，现在只需要几个小时就能完成。因此，这逐渐演变成一个更通用的系统，允许您将任何人工智能工作负载分布到多台机器上。通常，您只会在一台设备上运行某些东西，但如果您想提高速度，并从您的模型中获得更多令牌/秒，或者您想加快训练运行速度，那么您真正能做到的唯一选择就是使用更多设备。”

然而，即使他收集了周围和朋友那里所需的设备，Cheema 发现另一个问题：带宽。

“问题在于，现在您有了这些设备之间的通信，而这非常慢，”他向 VentureBeat 解释道。“所以这里有很多类似于我在过去从事过的分布式系统问题的技术难题。”

因此，他和他的联合创始人 Mohamed “Mo” Baioumy 开发了一种新的软件工具 Exo，该工具将人工智能工作负载分布到多个设备上，以供那些没有 Nvidia GPU 的用户使用，并最终在 7 月通过 GNU 通用公共许可证将其开源到 Github 上，该许可证包括商业或付费使用，只要用户保留并提供源代码的副本。

从那时起，Exo 在 Github 上的受欢迎程度稳步上升，该公司已从私人投资者那里获得了未公开的资金。

为了进一步支持采用，Exo Labs 准备在下周推出一个免费的基准测试网站。

该网站将提供硬件设置的详细比较，包括单设备和多设备配置，使用户能够根据自己的需求和预算确定运行 LLM 的最佳解决方案。

Cheema 強調了實際基准測試的重要性，指出理論估計通常會誤解實際能力。

“我們的目標是通過展示任何人都可以複製的經過測試的設置，來提供清晰度並鼓勵創新，”他補充道。