前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

Holo3.1 发布:快速本地化计算机操作 AI

AI 前沿2026年6月1日· 原作者:Hugging Face· 5 分钟阅读2 阅读

H 公司发布 Holo3.1,一个跨网页、桌面和移动环境的计算机操作模型家族。新版本首次提供量化 checkpoints(FP8、Q4 GGUF、NVFP4),在消费级硬件上实现快速本地推理,性能比前代提升超过 25%,移动端准确率从 67% 跃升至 79.3%。

今年三月,H 公司发布了 Holo3,一款顶尖的计算机操作模型。发布后迅速被开发者、企业和合作伙伴采用,应用于浏览器自动化、商业软件、内部工具和桌面应用等场景。但随着用户规模扩大,单纯的高性能已无法满足需求。

用户希望在同一模型上实现桌面与移动环境的统一操作,并能无缝集成不同智能体框架。他们需要灵活的部署选项:从云端推理到终端设备完全本地化执行。

为此,H 公司发布了 Holo3.1 家族。新版本在三个关键维度上提升了稳健性:环境(网页、桌面、移动)、智能体框架以及部署目标。更重要的是,团队首次发布了针对本地推理优化后的量化 checkpoints,包括 FP8、Q4 GGUF 和 NVFP4。

Holo3.1 是迈向通用计算机操作智能体的重要一步——这类系统能够跨环境工作、集成到任何智能体栈中,并在流程所在的任何位置运行。

跨 GUI 环境与智能体框架的计算机操作

Holo3.1 基于 Qwen 家族,专为提升计算机操作模型在生产环境中实际部署的稳健性而设计,同时保持顶尖性能。

当团队将 Holo3 从评估推向生产时,反复遇到同一个挑战:在一种环境中表现优异,并不一定能迁移到另一种环境。移动设备、替代智能体框架、不同的执行框架都会引入各自的分布偏移。

移动自动化

Holo3.1 将 Holo3 的能力从浏览器和桌面扩展到移动环境,带来显著提升。在 AndroidWorld 基准上,35B-A3B 模型从 67% 提升至 79.3%,更小的 4B 和 9B 变体也从 58% 提升至 72%。

跨框架性能

为更好支持使用第三方智能体栈的团队,Holo3.1 除了已有的结构化 JSON 输出,还原生支持函数调用协议。

在 OSWorld 以及涵盖电商、商业软件和协作工作流的内部基准测试中,函数调用和原生执行已实现近乎相同的性能。在 Holotab 产品框架内评估时,Holo3.1 相比前代提升超过 25%。

性能与成本对比

整体 Pareto 前沿

Holo3.1 与 Qwen 3.5 家族的性能 vs 成本。整体性能先平均四个 H Corporate 基准(各家族等权重),再取 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 的均值。

更小尺寸实现成本与性能平衡

除 35B-A3B 旗舰模型外,Holo3.1 还新增了 0.8B、4B 和 9B 等更小模型,适用于低成本或隐私敏感的本地部署场景。

快速本地推理

这是 Holo3 家族首次交付量化权重的版本。首批提供 35B-A3B 的 FP8、Q4 GGUF 和 NVFP4 版本。

NVFP4 采用 NVIDIA Model Optimizer 的 W4A16 配置,这些 checkpoint 能在几乎不损失模型性能的前提下实现快速本地推理。FP8 和 NVFP4 在 OSWorld 上取得相同分数,仅比全精度 BF16 checkpoint 低约 2 分。

速度提升显著:在 DGX Spark 上,NVFP4 W4A16 的总 token 吞吐量是 FP8 的 1.41 倍,是 BF16 的 1.74 倍。

质量与吞吐量 Pareto 图

迈向消费级硬件上的本地智能体

同时发布的 Q4 GGUF checkpoint 专门面向消费级硬件上的本地部署。

智能体本身在 Windows 或 Mac 机器上本地运行,模型可在同一台机器上运行(提供 Apple Silicon 参考数据),也可通过本地网络连接到 DGX Spark。两种情况下执行完全私有且本地化,数据不离开用户网络。

在 Spark 上,结合智能体框架优化(与 NVIDIA 合作)和 NVFP4 量化,相比 FP8 基线,端到端速度提升约 2 倍,平均步骤时间从 6.8 秒降至 3.3 秒。

各平台请求速率

各平台不同精度下的智能体请求速率。在 DGX Spark 上,vLLM 配合 NVFP4 在默认和快速模式下均达到最高请求速率,其次是 Q4 GGUF 和 FP8。这些改进将很快落地到桌面版智能体框架中。

可用性

Holo3.1 家族提供四个尺寸:

模型部署目标
Holo3.1-0.8B超轻量级本地智能体
Holo3.1-4B低成本部署
Holo3.1-9B性能与延迟均衡
Holo3.1-35B-A3B顶尖性能

此外还发布了 FP8、NVFP4 和 Q4 GGUF 优化版 checkpoint,适用于本地和边缘部署。

开始使用

  • Holo Models API:https://hcompany.ai/holo-models-api
  • Hugging Face 模型集合:https://huggingface.co/collections/Hcompany/holo31

原文链接:Hugging Face
本文由前途科技编辑整理

标签:本地部署

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

特朗普官员对AI芯片漏洞存分歧
TOP1

特朗普官员对AI芯片漏洞存分歧

Methane Eating Microbes Can T
TOP2

Methane Eating Microbes Can T

3

英伟达2026下半年产能翻倍

15小时前
英伟达2026下半年产能翻倍
4

台积电CEO称亚利桑那厂区可满足十年芯片需求

15小时前
台积电CEO称亚利桑那厂区可满足十年芯片需求
5

NASA X-59 首次突破音障

15小时前
NASA X-59 首次突破音障
6

Anthropic与白宫关系缓和,筹备IPO

15小时前
Anthropic与白宫关系缓和,筹备IPO
7

台积电CEO:竞争对手十年内追上是做梦

15小时前
台积电CEO:竞争对手十年内追上是做梦
8

Rubin AI机架内存减半,芯片股暴跌

15小时前
Rubin AI机架内存减半,芯片股暴跌
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款