Rackspace 揭秘 AI 运维实战:从安全到迁移的降本增效

商业· 4 分钟阅读2 阅读

Rackspace 近期分享其 AI 运维实践,直面数据混乱、治理缺失等常见瓶颈。通过安全业务中的 RAIDER 平台和 AI 智能体驱动的现代化项目,公司展示了如何用 AI 自动化重复任务、缩短检测时间,并将 AI 视为一种运营纪律。文章还指出,微软等大厂也强调身份与数据访问管控是生产力提升的关键。

在近期的一篇博客中,Rackspace 提到了许多读者熟悉的瓶颈:数据混乱、权责不清、治理缺失,以及模型投入生产后的运行成本。公司从服务交付、安全运营和云现代化角度切入,这透露出其自身的发力方向。

Rackspace 内部运营 AI 最清晰的例子之一是其安全业务。1 月下旬,公司描述了 RAIDER(Rackspace Advanced Intelligence, Detection and Event Research)——一个为其内部网络防御中心定制的后端平台。面对海量警报和日志,如果依赖手动编写安全规则,标准检测工程难以扩展。Rackspace 表示,其 RAIDER 系统将威胁情报与检测工程工作流统一,并利用 AI 安全引擎(RAISE)和大语言模型来自动化检测规则创建,生成符合 MITRE ATT&CK 等已知框架的“平台就绪”检测标准。公司声称检测开发时间缩短了一半以上,并降低了平均检测与响应时间。这正是那种至关重要的内部流程变革。

公司还将 AI 智能体定位为消除复杂工程项目摩擦的一种方式。一篇 1 月关于在 AWS 上现代化 VMware 环境的帖子描述了一个模型,其中 AI 智能体处理数据密集型分析和许多重复任务,但“架构判断、治理和业务决策”仍保留在人类领域。Rackspace 将这一工作流呈现为防止高级工程师被边缘化到迁移项目中。文章指出,目标是保持“第二天”运营在范围内——许多迁移计划在此失败,因为团队发现他们现代化了基础设施,却没有更新运营实践。

在其他方面,公司描绘了 AI 支持运营的图景:监控变得更预测性,常规事件由机器人和自动化脚本处理,遥测数据(加上历史数据)用于发现模式,进而推荐修复方案。这是传统的 AIOps 语言,但 Rackspace 将其与托管服务交付挂钩,暗示公司不仅将 AI 用于面向客户的环境,还用来降低运营管道中的劳动力成本。

在一篇描述 AI 赋能运营的帖子中,公司强调了聚焦战略、治理和运营模式的重要性。它详细说明了工业化 AI 所需的机制,例如根据工作负载涉及训练、微调还是推理来选择基础设施。许多任务相对轻量,可以在现有硬件上本地运行推理。

公司指出了 AI 采用的四个常见障碍,最突出的是数据碎片化和不一致,并建议投资集成和数据管理,以便模型有统一的基础。这当然不是 Rackspace 独有的观点,但由一家技术优先的大公司明确提出,说明了许多企业级 AI 部署面临的问题。

规模更大的微软公司正努力协调跨系统的自主智能体工作。Copilot 已演变为一个编排层,在微软生态系统中,确实存在多步骤任务执行和更广泛的模型选择。然而,值得注意的是,Rackspace 指出生产力提升只有在身份、数据访问和监督牢固融入运营时才会实现

Rackspace 的近期 AI 计划包括 AI 辅助的安全工程、智能体支持的现代化和 AI 增强的服务管理。其未来计划或许可以从公司博客 1 月一篇关于私有云 AI 趋势的文章中窥见。文中作者认为,推理经济和治理将推动架构决策直至 2026 年。它预计公共云中会有“爆发式”探索,同时基于成本稳定性和合规性,将推理任务移至私有云。这是一条基于预算和审计需求而非新奇性的运营 AI 路线图。

对于试图加速自身部署的决策者来说,有用的启示是 Rackspace 将 AI 视为一种运营纪律。其发布的具体例子都是那些减少可重复工作周期时间的案例。读者可能接受公司的方向,但仍对其声称的指标保持警惕。成长型企业内部的步骤是:发现重复流程,检查哪些地方因数据治理需要严格监督,以及哪些地方通过内部处理可能降低推理成本。

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会