H 公司发布 Holo3.1,一个跨网页、桌面和移动环境的计算机操作模型家族。新版本首次提供量化 checkpoints(FP8、Q4 GGUF、NVFP4),在消费级硬件上实现快速本地推理,性能比前代提升超过 25%,移动端准确率从 67% 跃升至 79.3%。
今年三月,H 公司发布了 Holo3,一款顶尖的计算机操作模型。发布后迅速被开发者、企业和合作伙伴采用,应用于浏览器自动化、商业软件、内部工具和桌面应用等场景。但随着用户规模扩大,单纯的高性能已无法满足需求。
用户希望在同一模型上实现桌面与移动环境的统一操作,并能无缝集成不同智能体框架。他们需要灵活的部署选项:从云端推理到终端设备完全本地化执行。
为此,H 公司发布了 Holo3.1 家族。新版本在三个关键维度上提升了稳健性:环境(网页、桌面、移动)、智能体框架以及部署目标。更重要的是,团队首次发布了针对本地推理优化后的量化 checkpoints,包括 FP8、Q4 GGUF 和 NVFP4。
Holo3.1 是迈向通用计算机操作智能体的重要一步——这类系统能够跨环境工作、集成到任何智能体栈中,并在流程所在的任何位置运行。
Holo3.1 基于 Qwen 家族,专为提升计算机操作模型在生产环境中实际部署的稳健性而设计,同时保持顶尖性能。
当团队将 Holo3 从评估推向生产时,反复遇到同一个挑战:在一种环境中表现优异,并不一定能迁移到另一种环境。移动设备、替代智能体框架、不同的执行框架都会引入各自的分布偏移。
Holo3.1 将 Holo3 的能力从浏览器和桌面扩展到移动环境,带来显著提升。在 AndroidWorld 基准上,35B-A3B 模型从 67% 提升至 79.3%,更小的 4B 和 9B 变体也从 58% 提升至 72%。
为更好支持使用第三方智能体栈的团队,Holo3.1 除了已有的结构化 JSON 输出,还原生支持函数调用协议。
在 OSWorld 以及涵盖电商、商业软件和协作工作流的内部基准测试中,函数调用和原生执行已实现近乎相同的性能。在 Holotab 产品框架内评估时,Holo3.1 相比前代提升超过 25%。


Holo3.1 与 Qwen 3.5 家族的性能 vs 成本。整体性能先平均四个 H Corporate 基准(各家族等权重),再取 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 的均值。
除 35B-A3B 旗舰模型外,Holo3.1 还新增了 0.8B、4B 和 9B 等更小模型,适用于低成本或隐私敏感的本地部署场景。
这是 Holo3 家族首次交付量化权重的版本。首批提供 35B-A3B 的 FP8、Q4 GGUF 和 NVFP4 版本。
NVFP4 采用 NVIDIA Model Optimizer 的 W4A16 配置,这些 checkpoint 能在几乎不损失模型性能的前提下实现快速本地推理。FP8 和 NVFP4 在 OSWorld 上取得相同分数,仅比全精度 BF16 checkpoint 低约 2 分。
速度提升显著:在 DGX Spark 上,NVFP4 W4A16 的总 token 吞吐量是 FP8 的 1.41 倍,是 BF16 的 1.74 倍。

同时发布的 Q4 GGUF checkpoint 专门面向消费级硬件上的本地部署。
智能体本身在 Windows 或 Mac 机器上本地运行,模型可在同一台机器上运行(提供 Apple Silicon 参考数据),也可通过本地网络连接到 DGX Spark。两种情况下执行完全私有且本地化,数据不离开用户网络。
在 Spark 上,结合智能体框架优化(与 NVIDIA 合作)和 NVFP4 量化,相比 FP8 基线,端到端速度提升约 2 倍,平均步骤时间从 6.8 秒降至 3.3 秒。

各平台不同精度下的智能体请求速率。在 DGX Spark 上,vLLM 配合 NVFP4 在默认和快速模式下均达到最高请求速率,其次是 Q4 GGUF 和 FP8。这些改进将很快落地到桌面版智能体框架中。
Holo3.1 家族提供四个尺寸:
| 模型 | 部署目标 |
|---|---|
| Holo3.1-0.8B | 超轻量级本地智能体 |
| Holo3.1-4B | 低成本部署 |
| Holo3.1-9B | 性能与延迟均衡 |
| Holo3.1-35B-A3B | 顶尖性能 |
此外还发布了 FP8、NVFP4 和 Q4 GGUF 优化版 checkpoint,适用于本地和边缘部署。
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断