一行命令在HF Jobs上运行vLLM服务器

产品2026年6月25日· 原作者：Hugging Face· 2 分钟阅读1 阅读

Hugging Face 推出新功能，允许用户通过一条命令在 Jobs 服务上直接部署 vLLM 推理服务器。这大幅简化了大规模模型部署流程，开发者无需手动配置环境或编写复杂脚本，即可快速启动高性能推理服务。

Hugging Face 近日发布了一项新功能：现在只需一条命令，就能在 Hugging Face Jobs 上直接运行 vLLM 推理服务器。这极大降低了部署大语言模型的门槛，让开发者能快速上手。

vLLM 是一个专为大语言模型设计的高性能推理引擎，支持连续批处理、PagedAttention 等技术，能显著提升吞吐量并降低延迟。此前，在云端部署 vLLM 需要手动配置硬件、安装依赖、编写启动脚本，流程繁琐。现在，Hugging Face 通过整合其 Jobs 服务（一个托管算力平台），实现了“一键式”部署。

如何使用

用户只需在终端中运行类似以下命令：

hf jobs create --gpu 1 --image vllm/vllm-openai:latest --command "vllm serve meta-llama/Llama-2-7b-chat-hf" --name my-vllm-server

该命令会自动分配 GPU 资源、拉取官方 vLLM Docker 镜像，并启动一个兼容 OpenAI API 的服务器。Hugging Face Jobs 负责处理网络、存储和日志等基础设施，用户无需手动管理。

核心优势

零配置：无需编写 Kubernetes YAML 或 Docker Compose 文件。
按需付费：仅在使用期间计费，适合测试和临时负载。
内置监控：Jobs 控制台提供实时日志和资源使用图表。
与生态集成：可直接使用 Hugging Face Hub 上的模型，无需额外下载。

适用场景

快速原型验证：在一天内搭建 API 端点供团队测试。
批量推理：利用 vLLM 的高吞吐处理大规模文本生成任务。
教学演示：无需本地 GPU，即可演示大模型推理。

技术细节
该功能基于 Hugging Face Jobs 的“自定义容器”特性。用户指定的命令会在运行 vLLM 镜像的容器中执行，并自动暴露 8000 端口（vLLM 默认 API 端口）。Jobs 会为每个任务创建一个可公开访问的端点（如 https://username-vllm-server.hf.space），支持 Token 认证。

未来规划
Hugging Face 表示将进一步优化体验，例如支持预置常用模型的模板、自动扩缩容以及与 Spaces 的深度集成。开发者可关注官方博客了解更新。

vLLM性能对比图

图示：vLLM 在不同负载下的吞吐量表现

原文链接：Hugging Face
本文由前途科技编辑整理

一行命令在HF Jobs上运行vLLM服务器

产品2026年6月25日· 原作者：Hugging Face· 2 分钟阅读1 阅读

如何使用

用户只需在终端中运行类似以下命令：

hf jobs create --gpu 1 --image vllm/vllm-openai:latest --command "vllm serve meta-llama/Llama-2-7b-chat-hf" --name my-vllm-server

核心优势

零配置：无需编写 Kubernetes YAML 或 Docker Compose 文件。
按需付费：仅在使用期间计费，适合测试和临时负载。
内置监控：Jobs 控制台提供实时日志和资源使用图表。
与生态集成：可直接使用 Hugging Face Hub 上的模型，无需额外下载。

适用场景

快速原型验证：在一天内搭建 API 端点供团队测试。
批量推理：利用 vLLM 的高吞吐处理大规模文本生成任务。
教学演示：无需本地 GPU，即可演示大模型推理。

未来规划
Hugging Face 表示将进一步优化体验，例如支持预置常用模型的模板、自动扩缩容以及与 Spaces 的深度集成。开发者可关注官方博客了解更新。

vLLM性能对比图

图示：vLLM 在不同负载下的吞吐量表现

原文链接：Hugging Face
本文由前途科技编辑整理

一行命令在HF Jobs上运行vLLM服务器

想了解 AI 如何助力您的企业？

24小时热榜

一行命令在HF Jobs上运行vLLM服务器

智能体如何重塑工作模式

免费获取 AI 落地指南

一行命令在HF Jobs上运行vLLM服务器

想了解 AI 如何助力您的企业？

24小时热榜

一行命令在HF Jobs上运行vLLM服务器

智能体如何重塑工作模式

免费获取 AI 落地指南