Holo3.1 发布：快速本地化计算机操作 AI

今年三月，H 公司发布了 Holo3，一款顶尖的计算机操作模型。发布后迅速被开发者、企业和合作伙伴采用，应用于浏览器自动化、商业软件、内部工具和桌面应用等场景。但随着用户规模扩大，单纯的高性能已无法满足需求。

用户希望在同一模型上实现桌面与移动环境的统一操作，并能无缝集成不同智能体框架。他们需要灵活的部署选项：从云端推理到终端设备完全本地化执行。

为此，H 公司发布了 Holo3.1 家族。新版本在三个关键维度上提升了稳健性：环境（网页、桌面、移动）、智能体框架以及部署目标。更重要的是，团队首次发布了针对本地推理优化后的量化 checkpoints，包括 FP8、Q4 GGUF 和 NVFP4。

Holo3.1 是迈向通用计算机操作智能体的重要一步——这类系统能够跨环境工作、集成到任何智能体栈中，并在流程所在的任何位置运行。

跨 GUI 环境与智能体框架的计算机操作

Holo3.1 基于 Qwen 家族，专为提升计算机操作模型在生产环境中实际部署的稳健性而设计，同时保持顶尖性能。

当团队将 Holo3 从评估推向生产时，反复遇到同一个挑战：在一种环境中表现优异，并不一定能迁移到另一种环境。移动设备、替代智能体框架、不同的执行框架都会引入各自的分布偏移。

移动自动化

Holo3.1 将 Holo3 的能力从浏览器和桌面扩展到移动环境，带来显著提升。在 AndroidWorld 基准上，35B-A3B 模型从 67% 提升至 79.3%，更小的 4B 和 9B 变体也从 58% 提升至 72%。

跨框架性能

为更好支持使用第三方智能体栈的团队，Holo3.1 除了已有的结构化 JSON 输出，还原生支持函数调用协议。

在 OSWorld 以及涵盖电商、商业软件和协作工作流的内部基准测试中，函数调用和原生执行已实现近乎相同的性能。在 Holotab 产品框架内评估时，Holo3.1 相比前代提升超过 25%。

性能与成本对比

整体 Pareto 前沿

Holo3.1 与 Qwen 3.5 家族的性能 vs 成本。整体性能先平均四个 H Corporate 基准（各家族等权重），再取 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 的均值。

更小尺寸实现成本与性能平衡

除 35B-A3B 旗舰模型外，Holo3.1 还新增了 0.8B、4B 和 9B 等更小模型，适用于低成本或隐私敏感的本地部署场景。

快速本地推理

这是 Holo3 家族首次交付量化权重的版本。首批提供 35B-A3B 的 FP8、Q4 GGUF 和 NVFP4 版本。

NVFP4 采用 NVIDIA Model Optimizer 的 W4A16 配置，这些 checkpoint 能在几乎不损失模型性能的前提下实现快速本地推理。FP8 和 NVFP4 在 OSWorld 上取得相同分数，仅比全精度 BF16 checkpoint 低约 2 分。

速度提升显著：在 DGX Spark 上，NVFP4 W4A16 的总 token 吞吐量是 FP8 的 1.41 倍，是 BF16 的 1.74 倍。

质量与吞吐量 Pareto 图

迈向消费级硬件上的本地智能体

同时发布的 Q4 GGUF checkpoint 专门面向消费级硬件上的本地部署。

智能体本身在 Windows 或 Mac 机器上本地运行，模型可在同一台机器上运行（提供 Apple Silicon 参考数据），也可通过本地网络连接到 DGX Spark。两种情况下执行完全私有且本地化，数据不离开用户网络。

在 Spark 上，结合智能体框架优化（与 NVIDIA 合作）和 NVFP4 量化，相比 FP8 基线，端到端速度提升约 2 倍，平均步骤时间从 6.8 秒降至 3.3 秒。

各平台请求速率

各平台不同精度下的智能体请求速率。在 DGX Spark 上，vLLM 配合 NVFP4 在默认和快速模式下均达到最高请求速率，其次是 Q4 GGUF 和 FP8。这些改进将很快落地到桌面版智能体框架中。

可用性

Holo3.1 家族提供四个尺寸：

模型	部署目标
Holo3.1-0.8B	超轻量级本地智能体
Holo3.1-4B	低成本部署
Holo3.1-9B	性能与延迟均衡
Holo3.1-35B-A3B	顶尖性能

此外还发布了 FP8、NVFP4 和 Q4 GGUF 优化版 checkpoint，适用于本地和边缘部署。

开始使用

Holo Models API：https://hcompany.ai/holo-models-api
Hugging Face 模型集合：https://huggingface.co/collections/Hcompany/holo31

原文链接：Hugging Face
本文由前途科技编辑整理

Holo3.1 是迈向通用计算机操作智能体的重要一步——这类系统能够跨环境工作、集成到任何智能体栈中，并在流程所在的任何位置运行。

跨 GUI 环境与智能体框架的计算机操作

Holo3.1 基于 Qwen 家族，专为提升计算机操作模型在生产环境中实际部署的稳健性而设计，同时保持顶尖性能。

移动自动化

跨框架性能

为更好支持使用第三方智能体栈的团队，Holo3.1 除了已有的结构化 JSON 输出，还原生支持函数调用协议。

性能与成本对比

整体 Pareto 前沿

更小尺寸实现成本与性能平衡

除 35B-A3B 旗舰模型外，Holo3.1 还新增了 0.8B、4B 和 9B 等更小模型，适用于低成本或隐私敏感的本地部署场景。

快速本地推理

这是 Holo3 家族首次交付量化权重的版本。首批提供 35B-A3B 的 FP8、Q4 GGUF 和 NVFP4 版本。

速度提升显著：在 DGX Spark 上，NVFP4 W4A16 的总 token 吞吐量是 FP8 的 1.41 倍，是 BF16 的 1.74 倍。

质量与吞吐量 Pareto 图

迈向消费级硬件上的本地智能体

同时发布的 Q4 GGUF checkpoint 专门面向消费级硬件上的本地部署。

在 Spark 上，结合智能体框架优化（与 NVIDIA 合作）和 NVFP4 量化，相比 FP8 基线，端到端速度提升约 2 倍，平均步骤时间从 6.8 秒降至 3.3 秒。

各平台请求速率

可用性

Holo3.1 家族提供四个尺寸：

模型	部署目标
Holo3.1-0.8B	超轻量级本地智能体
Holo3.1-4B	低成本部署
Holo3.1-9B	性能与延迟均衡
Holo3.1-35B-A3B	顶尖性能

此外还发布了 FP8、NVFP4 和 Q4 GGUF 优化版 checkpoint，适用于本地和边缘部署。

开始使用

Holo Models API：https://hcompany.ai/holo-models-api
Hugging Face 模型集合：https://huggingface.co/collections/Hcompany/holo31

原文链接：Hugging Face
本文由前途科技编辑整理

Holo3.1 发布：快速本地化计算机操作 AI

跨 GUI 环境与智能体框架的计算机操作

移动自动化

跨框架性能

更小尺寸实现成本与性能平衡

快速本地推理

迈向消费级硬件上的本地智能体

可用性

开始使用

想了解 AI 如何助力您的企业？

24小时热榜

特朗普官员对AI芯片漏洞存分歧

Methane Eating Microbes Can T

英伟达2026下半年产能翻倍

台积电CEO称亚利桑那厂区可满足十年芯片需求

NASA X-59 首次突破音障

Anthropic与白宫关系缓和，筹备IPO

台积电CEO：竞争对手十年内追上是做梦

Rubin AI机架内存减半，芯片股暴跌

免费获取 AI 落地指南

Holo3.1 发布：快速本地化计算机操作 AI

跨 GUI 环境与智能体框架的计算机操作

移动自动化

跨框架性能

更小尺寸实现成本与性能平衡

快速本地推理

迈向消费级硬件上的本地智能体

可用性

开始使用

想了解 AI 如何助力您的企业？

24小时热榜

特朗普官员对AI芯片漏洞存分歧

Methane Eating Microbes Can T

英伟达2026下半年产能翻倍

台积电CEO称亚利桑那厂区可满足十年芯片需求

NASA X-59 首次突破音障

Anthropic与白宫关系缓和，筹备IPO

台积电CEO：竞争对手十年内追上是做梦

Rubin AI机架内存减半，芯片股暴跌

免费获取 AI 落地指南