加入我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
事件响应,即应对系统中断和速度放缓的过程,是 IT 运维的关键环节。它也是一项传统上涉及大量手动、耗时流程的活动。
Harness 正致力于解决这一挑战,推出了新的事件响应服务。该技术今天作为该公司同名平台上的一个模块进入早期访问阶段。Harness 于 2017 年起步,最初专注于 DevOps 的持续集成/持续交付 (CI/CD) 自动化。多年来,该公司已扩展为一个拥有多个模块的软件交付平台。2024 年秋季,Harness 突破了代理 AI,最初是为了帮助支持软件开发。
现在,该公司正在将相同的核心代理 AI 基础扩展到事件响应。新解决方案还受益于最初由开发工作流供应商 Transposit 开发的许可功能。Transposit 的联合创始人 Tina Huang 以及她的团队中的许多成员于 2024 年 9 月加入了 Harness。
Harness 事件响应的目标是加快事件的平均解决时间 (MTTR)。
“当你思考 DevOps 平台迄今为止所做的事情时,它在很大程度上是关于帮助你构建这些部署,”Huang 告诉 VentureBeat。“我认为,在此之后,非常自然的地方是,‘如何在我部署上线后,帮助你维护它们?’”
Harness 事件响应模块的核心是该公司的 AI 代理架构,该架构于 2024 年 9 月首次推出。
Harness 首席执行官兼联合创始人 Jyoti Bansal 向 VentureBeat 解释说,其 AI 代理旨在提供自主协助,不仅仅是向工程师发出事件警报。传统的事件响应技术使用一种称为剧本的方法。IT 团队,通常与站点可靠性工程师 (SRE) 合作,定义剧本,这些剧本列出了从不同类型的服务中断中恢复的分步流程。
代理 AI 代理不完全依赖于预定义的剧本,它可以建议行动,识别潜在的根本原因,甚至可以动态创建新的剧本。
“代理工作流正在建议应该采取的行动,”Bansal 说。
Huang 解释说,AI 代理执行多个步骤,这些步骤对于帮助组织更快地响应事件至关重要。Bansal 解释说,即使在剧本可以运行之前,也需要进行一定程度的分类。例如,一般分类可以识别哪些服务受到影响,或者确定事件也会影响的上游和下游依赖关系。
Harness 的系统拥有了解并连接到多个系统的代理,这些代理可以自动收集信息,包括来自 Slack 频道的消息和讨论。这些信息可以帮助其他代理提醒人类并提供自主协助。
虽然该系统具有高度自动化,但 Huang 强调人类仍然参与其中。但与人类被提醒出现问题,然后必须弄清楚是否有剧本——如果有,如何运行它——不同的是,该系统会推荐补救措施,人类只需要批准它。
Harness 事件响应模块可以独立运行,这意味着组织不需要运行任何其他 Harness 模块。
然而,Bansal 预计,组合后的产品——可以实现与包括 DevOps 或混沌工程在内的多个其他工作流的集成——可能会有益。混沌工程是在应用程序中注入意外变量和事件以查看其响应方式的过程。自 2022 年以来,Harness 一直在其平台中包含混沌工程模块。
Huang 解释说,作为事件响应平台的一部分,组织可以与混沌工程模块一起运行“消防演习”以测试不同的场景。
“事件很少发生,它们通常是你之前没有发现的东西导致的不幸结果,”Huang 说。“我们希望能够对事件响应采取非常积极主动的方法。”
使用事件响应模块的 Harness 客户之一是 Tyler Technologies,该公司为公共部门开发软件。
该公司一直在使用 Harness 平台进行持续部署、云成本管理和功能标志开发。Tyler Technologies 的首席技术官 Jeff Green 解释说,添加事件响应可以帮助解决该公司面临的一个关键挑战。
“我们面临的主要挑战是真正整合所有运营数据、指标和流程,然后将它们关联到一个统一的方法中,以管理事件并自动响应它们,”他告诉 VentureBeat。“我们的产品组合包括 100 多种产品,这些产品基于不同的技术,使用各种各样的 DevOps 工具和平台。”
事件响应功能将补充 Tyler Technologies 已经在使用 Harness 进行的现有操作。例如,能够将部署与事件相关联,或者将功能标志与事件相关联。
“我们认为,注入到产品中的 AI 功能将通过帮助我们进行根本原因分析、识别缓解或解决事件的方法以及事件预防来节省大量时间,”Green 说。“今天,这项工作中的大部分是由人工从多个来源提取数据、仔细检查日志和应用程序性能监控 (APM) 数据以及寻找模式来完成的,所有这些任务都更适合 AI 来完成。”
另一家正在评估事件响应模块的 Harness 客户是 InStride 的高级 DevOps 工程师 Omar Alwattar。
Alwattar 告诉 VentureBeat,他的公司一直在使用 Harness 持续交付模块。他指出,在事件响应方面,他的组织面临着两个主要挑战:预防性监控和根本原因识别。他说,新的 Harness 事件响应工具对他的公司很有吸引力,因为它将有助于更快地识别问题并自动提供修复建议。
“在投资回报率方面,最显著的影响将是减少停机时间,因为它直接影响 SLA 遵守情况和客户满意度,”Alwattar 说。“此外,通过自动化事件响应的各个方面,我们 11 人的 DevOps 团队可以更多地专注于战略项目和创新,而不是不断地进行故障排除。”