订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
两年前 ChatGPT 的推出,无疑是 AI 研究领域的一个里程碑。它赋予了面向消费者的 AI 新的意义,并促使企业探索如何将 GPT 或类似模型应用于各自的业务用例。快进到 2024 年:一个繁荣的语言模型生态系统正在蓬勃发展,敏捷的初创公司和大型企业都在利用它,并结合检索增强生成 (RAG) 等方法,用于内部协同工作和知识搜索系统。
用例呈指数级增长,对企业级生成式 AI 计划的投资也随之增加。毕竟,这项技术预计将每年为全球经济增加 2.6 万亿美元至 4.4 万亿美元。但事实是:我们迄今为止所见到的仅仅是生成式 AI 的第一波浪潮。
在过去几个月里,多家初创公司和大型组织(如 Salesforce 和 SAP)已开始迈向所谓的“代理系统”的下一阶段。这些代理将企业 AI 从基于提示的系统(能够利用内部知识(通过 RAG)并回答关键业务问题)转变为自主的、面向任务的实体。它们可以根据给定情况或指令集做出决策,创建分步行动计划,然后通过使用在线工具、API 等,在数字环境中实时执行该计划。
向 AI 代理的转变标志着我们所知自动化的重大转变,并且可以轻松地为企业提供一支随时可部署的虚拟同事队伍,这些同事可以处理任务(无论是预订机票还是将数据从一个数据库移动到另一个数据库),从而节省大量时间。Gartner 估计,到 2028 年,33% 的企业软件应用程序将包含 AI 代理,而目前这一比例不到 1%,这将使 15% 的日常工作决策能够自主做出。
但是,如果 AI 代理有望成为如此重要的工具?企业如何在不影响准确性的情况下将其引入其技术堆栈?没有人希望一个 AI 驱动的系统无法理解业务(或特定领域)的细微差别,最终执行错误的操作。
正如 Google Cloud 的数据分析副总裁兼总经理 Gerrit Kazmaier 所说,答案在于精心设计的 data strategy。
“数据管道必须从用于存储和处理数据的系统演变为“用于创建知识和理解的系统”。这需要将重点从简单地收集数据转变为以一种赋予 LLM 作为可信赖且有见地的业务合作伙伴的功能的方式来策划、丰富和组织数据,”Kazmaier 告诉 VentureBeat。
从历史上看,企业严重依赖结构化数据(以表格形式组织)进行分析和决策。这是他们拥有的实际数据的 10%,并且易于访问。其余 90% 的数据是“黑暗的”,存储在各种格式(如 PDF 和视频)的孤岛中。然而,当 AI 开始发挥作用时,这些未开发的非结构化数据立即成为价值存储库,使组织能够为各种用例提供动力,包括聊天机器人和搜索系统等生成式 AI 应用程序。
如今,大多数组织已经至少拥有一个数据平台(许多平台具有向量数据库功能),用于将所有结构化和非结构化数据收集到一个地方,以支持下游应用程序。LLM 驱动的 AI 代理的兴起标志着在这个生态系统中增加了另一个此类应用程序。
因此,从本质上讲,很多事情保持不变。团队无需从头开始构建其数据堆栈,而是对其进行调整,重点关注某些关键要素,以确保他们开发的代理能够理解其业务行业的细微差别、数据集中的错综复杂的关联以及其运营的特定语义语言。
根据 Kazmaier 的说法,实现这一目标的理想方法是理解数据、AI 模型以及它们提供的价值(代理)是同一价值链的一部分,需要整体构建。这意味着采用一个统一的平台,将所有数据(从文本和图像到音频和视频)整合到一个地方,并具有语义层,利用动态知识图来捕获不断变化的关系,以捕获构建 AI 代理所需的相关业务指标/逻辑,这些代理能够理解组织和特定领域的上下文以采取行动。
“构建真正智能的 AI 代理的关键要素是强大的语义层。这就像给这些代理提供字典和词典,使它们不仅能够理解数据本身,还能理解数据背后的含义和关系……将此语义层直接引入数据云,就像我们使用 LookML 和 BigQuery 所做的那样,可能会改变游戏规则,”他解释说。
虽然组织可以使用手动方法来生成业务语义并创建这个至关重要的智能层,但 Gerrit 指出,这个过程可以轻松地借助 AI 自动化。
“这就是真正的魔力所在。通过将这些丰富的语义与企业如何使用其数据以及动态知识图中的其他上下文信号相结合,我们可以创建一个持续适应和敏捷的智能网络。它就像一个实时演变的知识库,为新的 AI 驱动的应用程序提供动力,并释放前所未有的洞察力和自动化水平,”他解释说。
但是,在语义层(上下文学习)上训练为代理提供动力的 LLM 只是拼图的一部分。AI 代理还应该了解相关数字环境中的实际工作方式,涵盖并非总是记录在案或捕获在数据中的方面。根据 AI 代理初创公司 Hercules AI 的首席技术官兼联合创始人 Gevorg Karapetyan 的说法,这就是构建可观察性和强大的强化循环派上用场的地方。
Karapetyan 在 2024 年世界信息技术大会 (WCIT) 上与 VentureBeat 谈话时表示,他们正在采用这种确切的方法来突破 AI 代理为其客户提供的最后一公里。
“我们首先根据个性化的客户数据和合成数据进行上下文微调,以便代理能够拥有通用和领域知识的基础。然后,根据它开始工作并与其各自环境(历史数据)交互的方式,我们进一步对其进行改进。这样,他们学会处理动态条件,而不是完美的世界,”他解释说。
数据质量、治理和安全仍然至关重要
有了语义层和基于历史数据的强化循环,组织就可以为强大的代理 AI 系统提供动力。但是,重要的是要注意,以这种方式构建数据堆栈并不意味着贬低通常的最佳实践。
这本质上意味着所使用的平台应该实时从所有主要来源摄取和处理数据(使代理能够根据情况立即适应、学习和采取行动),拥有确保数据质量/丰富度的系统,然后拥有强大的访问、治理和安全策略,以确保负责任的代理使用。
“治理、访问控制和数据质量在 AI 代理时代实际上变得更加重要。确定哪些服务可以访问哪些数据的工具成为确保 AI 系统的行为符合数据隐私规则的方法。同时,数据质量决定了代理执行任务的效率(或效率低下),”Databricks 的 AI 副总裁 Naveen Rao 告诉 VentureBeat。
他说,在任何方面错过这些方面都可能对企业的声誉及其最终客户造成“灾难性”影响。
“无论代理的质量有多高,结果有多令人印象深刻,如果开发人员没有信心只有合适的人员才能访问正确的信息/AI 功能,那么它就不应该问世。这就是为什么我们从 Unity Catalog 的治理层开始,并在其之上构建了我们的 AI 堆栈,”Rao 強调说。
Google Cloud 正在利用 AI 来处理数据管道中必须进行的一些手动工作。例如,该公司正在使用智能数据代理来帮助团队快速发现、清理和准备其数据以用于 AI,打破数据孤岛并确保质量和一致性。
“通过将 AI 直接嵌入数据基础设施,我们可以赋予企业释放生成式 AI 的真正潜力并加速其数据创新的能力,”Kazmaier 说。
也就是说,虽然 AI 代理的兴起代表着企业如何利用自动化和智能来简化运营的变革性转变,但这些项目的成功将直接取决于精心设计的 data strategy。随着组织发展其 data strategy,那些优先考虑将语义层与特定关注数据质量、可访问性、治理和安全的重点无缝集成的组织将最有可能释放 AI 代理的全部潜力,并引领下一波企业创新浪潮。
从长远来看,这些努力与基础语言模型的进步相结合,预计将使 AI 代理市场增长近 45%,使其从 2024 年的 51 亿美元增长到 2030 年的 471 亿美元。