IBM研究表明,AI智能体需借助Agent逻辑(知识图谱、程序分析等)缩小大语言模型上下文,引导工作流执行。在遗留代码理解、测试生成、事件响应和合规自动化等场景中,该方法在提升性能的同时大幅降低Token消耗,是实现可扩展企业AI采用的关键。

在人类历史上,指南针、地图和GPS导航不断改写着我们探索世界的方式。如今,AI智能体面临相似的转折——要真正实现企业级AI的规模采用,它们需要一个同样高效的“智能导航”,即Agent逻辑。
IBM研究团队指出,企业工作流具有动态、长周期、涉及大量API和数据库、并受业务政策约束等特点。这让智能体必须处理庞大的LLM上下文,导致耗能和幻觉问题。Agent逻辑正是解决这一矛盾的关键:它由知识图谱、算法、程序分析库等软件原语构成,运行在智能体层,能主动引导LLM走向工作流核心,大幅缩小上下文空间,实现更优性能与更低成本的平衡。
IBM watsonx Code Assistant for Z中的App Insights智能体,利用深度静态分析将应用信息预索引到涵盖数百张互相关联表的数据库模式中,从而精确检索结构化信息。在多个关键遗留系统(百万行代码、上千程序)上,该方法在保持应用理解性能优势的同时,Token消耗仅为纯LLM方法的1/30。
Aster是IBM专有的程序分析与数据预处理库,用于生成单元、集成、API和变更测试。结合Devstral 24B模型在75+个IBM CIO的Java应用上运行,最终在行覆盖、分支覆盖和方法覆盖上比最先进的编码智能体提升20%-45%,Token消耗降低最多15倍。其核心在于通过程序分析输出“聚焦”LLM,并利用子智能体增强覆盖和修复错误。
在运行时管理场景中,知识图谱将微服务、数据库、MELT等实体与专家经验融合,结合局部推理实现上下文缩小。基于Instana数据模型的I3智能体(Intelligent Incident Investigation)在ITBench上比ReAct智能体提升4.0倍(GPT-5.1),即便切换到Gemini 3 Flash,ReAct性能仍低17%且多消耗1.6倍Token。该多智能体系统已作为IBM Concert平台的一部分发布。
面对碎片化合规要求,多智能体系统通过算法分解复杂任务,采用自适应规划、动态分解和工作流排序,并持续反馈。在ITBench评估中,比采用固定规划策略的Claude 4 Sonnet更优1.3–2.0倍,复杂场景成功率从个位数提升至80%以上。该系统作为IBM Sovereign Core的一部分已发布。
在受监管的医疗场景中,CUGA通过策略即代码(policy-as-code)在运行时独立于模型执行治理。实验表明:在Claude Opus 4.5、GPT OSS 120B和GPT-4.1上,准确性提升15%-26%。策略强制执行结构化工作流、安全意图处理、工具使用和输出格式化,同时实现最小权限授权、明确合规规则和人类升级路径。
IBM Maximo Condition Insights智能体利用有向无环图(DAG)提供结构工程与运营上下文,减少无依据推理。在IBM Global Real Estate的试点中,资产分析时间从15-20分钟压缩到15-30秒(提升97%),覆盖站点从1%扩大到30%,涉及120+站点、6000+资产。Token消耗平均降低77%,诊断特异性微增。
从指南针到GPS,人类始终在寻找更好的向导。在AI智能体时代,Agent逻辑正是那个向导——它简化模型上下文,引导智能体精准穿越企业工作流核心。唯有如此,企业级的规模采用与最优运营成本才能同时实现。
[参考链接]
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断