GPUStack与CherryStudio：构建企业本地私有化AI助手的安全实践

随着大模型的普及，越来越多的企业希望借助 AI 提升工作效率——从智能对话、文档分析到知识问答与研发辅助，AI 正在重塑企业的工作方式。但在实际落地中，数据安全与隐私合规始终是绕不过的问题。为确保企业核心数据不外流、私有化模型稳定可控，本地私有化部署逐渐成为企业首选方案，而 CherryStudio 与 GPUStack 的结合，正是这一需求的理想实现。

Contents

CherryStudio：多模型桌面客户端 GPUStack：本地 AI 模型的算力中枢实战：三步完成 CherryStudio 连接 GPUStack GPUStack 赋能：CherryStudio 的多模型能力私有化部署的价值结语

CherryStudio 作为交互界面，为企业员工提供便捷的操作入口和知识管理能力，让用户能够轻松调用内部模型、查询知识库，以及生成文档和辅助决策，提升业务流程的智能化水平与工作效率。

而GPUStack是整套系统的算力与模型管理中枢。它为企业提供统一的模型部署、调度与监控能力，支持多模型的单机/多机运行与自动资源分配，确保推理过程高效稳定。同时，GPUStack 还具备认证授权、负载均衡、故障恢复与指标观测功能，让企业在本地掌控模型生命周期，实现对 AI 服务的统一管理与合规运行。

CherryStudio与GPUStack协同工作示意图

CherryStudio：多模型桌面客户端

CherryStudio 是跨平台（Windows、macOS、Linux）的桌面 AI 客户端，支持连接多种 LLM 服务：

主流云服务：OpenAI、Gemini、Anthropic、Claude、Perplexity 等
本地模型：Ollama、LM Studio、以及 GPUStack
内置 300+ 智能助手模板，支持自定义角色与多模型对话
支持文档、PDF、代码、Markdown 等多种格式，并提供多模态图像识别
集成 WebDAV、图表、翻译、知识库等工具

作为 AI 生产力中心，适用于办公、编程、学习与创作等场景。

GPUStack：本地 AI 模型的算力中枢

如果将 CherryStudio 视为交互前端，GPUStack则是后端引擎。

GPUStack提供标准化 API，可与上层系统（如 CherryStudio、业务服务或自定义应用）无缝集成，实现模型即服务（Model-as-a-Service）的统一访问，让企业能够集中管理算力资源，快速上线或更新模型服务。

关键特性

多厂商 GPU 支持：NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程、天数智芯、寒武纪、沐曦等
多类型模型：
- LLM（语言模型）
- VLM（视觉语言模型，支持图像识别）
- Embedding 与 Rerank 模型
- Image 模型（图像生成与编辑）
- TTS 模型（语音合成）
- ASR 模型（语音识别）
OpenAI API 兼容：可被任意兼容 OpenAI 接口的客户端直接连接（包括 CherryStudio）
一键部署模型：从模型仓库选择并启动，无需手动配置环境与依赖
内置 Playground：直观的交互测试界面
动态调度与监控：自动分配算力，实时查看 GPU 使用率、模型状态与 token 消耗

简而言之：GPUStack 将服务器构建为可管理的 AI 平台，适合企业私有化部署与模型统一管理。

实战：三步完成 CherryStudio 连接 GPUStack

步骤一：启动 GPUStack 服务

首先，参考 GPUStack 官方文档完成安装（https://docs.gpustack.ai/latest/installation/nvidia-cuda/online-installation/）。推荐容器化部署方式，在 NVIDIA GPU 服务器上，根据文档要求完成对应版本的 NVIDIA 驱动、Docker 和 NVIDIA Container Toolkit 安装后，通过 Docker 启动 GPUStack 服务。

docker run -d --name gpustack --restart=unless-stopped --gpus all --network=host --ipc=host -v gpustack-data:/var/lib/gpustack registry.cn-shanghai.aliyuncs.com/gpu-stack/gpustack:v0.7.1

启动完成后，在浏览器访问http://your_server_ip：

GPUStack管理界面登录页