Hugging Face 推出新功能,允许用户通过一条命令在 Jobs 服务上直接部署 vLLM 推理服务器。这大幅简化了大规模模型部署流程,开发者无需手动配置环境或编写复杂脚本,即可快速启动高性能推理服务。
Hugging Face 近日发布了一项新功能:现在只需一条命令,就能在 Hugging Face Jobs 上直接运行 vLLM 推理服务器。这极大降低了部署大语言模型的门槛,让开发者能快速上手。
vLLM 是一个专为大语言模型设计的高性能推理引擎,支持连续批处理、PagedAttention 等技术,能显著提升吞吐量并降低延迟。此前,在云端部署 vLLM 需要手动配置硬件、安装依赖、编写启动脚本,流程繁琐。现在,Hugging Face 通过整合其 Jobs 服务(一个托管算力平台),实现了“一键式”部署。
如何使用
用户只需在终端中运行类似以下命令:
hf jobs create --gpu 1 --image vllm/vllm-openai:latest --command "vllm serve meta-llama/Llama-2-7b-chat-hf" --name my-vllm-server
该命令会自动分配 GPU 资源、拉取官方 vLLM Docker 镜像,并启动一个兼容 OpenAI API 的服务器。Hugging Face Jobs 负责处理网络、存储和日志等基础设施,用户无需手动管理。
核心优势
适用场景
技术细节
该功能基于 Hugging Face Jobs 的“自定义容器”特性。用户指定的命令会在运行 vLLM 镜像的容器中执行,并自动暴露 8000 端口(vLLM 默认 API 端口)。Jobs 会为每个任务创建一个可公开访问的端点(如 https://username-vllm-server.hf.space),支持 Token 认证。
未来规划
Hugging Face 表示将进一步优化体验,例如支持预置常用模型的模板、自动扩缩容以及与 Spaces 的深度集成。开发者可关注官方博客了解更新。

图示:vLLM 在不同负载下的吞吐量表现
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会