订阅我们的每日和每周新闻简报,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
2025 年被认为是 AI 真正落地的一年,它将为企业带来具体、切实的益处。
然而,根据 AI 开发平台 Vellum 发布的最新 AI 开发现状报告,我们尚未完全达到这一目标:只有 25% 的企业将 AI 部署到生产环境中,而其中只有四分之一的企业看到了可衡量的影响。
这似乎表明,许多企业尚未找到 AI 的可行用例,这使得它们(至少目前)处于预构建的等待状态。
“这再次证明,尽管存在大量炒作和讨论,但 AI 仍处于早期阶段,”Vellum 首席执行官 Akash Sharma 告诉 VentureBeat。“行业内存在大量噪音,新的模型和模型提供商不断涌现,新的 RAG 技术层出不穷;我们只是想了解一下公司是如何将 AI 真正部署到生产环境中的。”
Vellum 采访了 1250 多位 AI 开发人员和构建者,以真实了解 AI 战壕中正在发生的事情。
根据该报告,大多数仍在生产阶段的公司正处于 AI 旅程的不同阶段——构建和评估策略和概念验证 (PoC) (53%)、beta 测试 (14%),以及在最低级别上,与用户沟通并收集需求 (7.9%)。
Vellum 表示,到目前为止,企业主要集中在构建文档解析和分析工具以及客户服务聊天机器人。但他们也对将分析与自然语言、内容生成、推荐系统、代码生成和自动化以及研究自动化相结合的应用程序感兴趣。
到目前为止,开发人员报告称,竞争优势 (31.6%)、成本和时间节省 (27.1%) 以及更高的用户采用率 (12.6%) 是他们迄今为止看到的最大影响。有趣的是,24.2% 的企业尚未从其投资中看到任何有意义的影响。
Sharma 強調了從一開始就優先考慮用例的重要性。“我們從軼事中得知,有些人只是想為了使用 AI 而使用 AI,”他說。“這與實驗預算有關。”
他指出,雖然這讓華爾街和投資者感到高興,但这并不意味着 AI 實際上正在做出任何貢獻。“每个人都应该思考的问题是,‘我们如何找到合适的用例?通常,一旦公司能够识别这些用例,将它们投入生产并看到明确的投资回报率,他们就会获得更多动力,超越炒作。这将导致更多内部专业知识,更多投资。”
在使用的模型方面,OpenAI 仍然处于领先地位(这并不奇怪),尤其是其 GPT 4o 和 GPT 4o-mini。但 Sharma 指出,2024 年提供了更多选择,无论是直接来自模型创建者,还是通过 Azure 或 AWS Bedrock 等平台解决方案。此外,托管开源模型(如 Llama 3.2 70B)的提供商也正在获得吸引力,例如 Groq、Fireworks AI 和 Together AI。
“开源模型正在变得越来越好,”Sharma 说。“OpenAI 的闭源竞争对手在质量方面正在迎头赶上。”
然而,最终,企业不会仅仅坚持使用一种模型,他们将越来越多地依赖多模型系统,他预测。
“人们会为手头的每项任务选择最佳模型,”Sharma 说。“在构建代理时,你可能会有多个提示,对于每个单独的提示,开发人员都希望获得最佳质量、最低成本和最低延迟,这可能来自 OpenAI,也可能不来自 OpenAI。”
同样,AI 的未来无疑是多模态的,Vellum 看到能够处理各种任务的工具的采用率激增。文本是无可争议的首选用例,其次是文件创建 (PDF 或 Word)、图像、音频和视频。
此外,检索增强生成 (RAG) 是信息检索的首选方法,超过一半的开发人员正在使用向量数据库来简化搜索。主要的开源和专有模型包括 Pinecone、MongoDB、Quadrant、Elastic Search、PG vector、Weaviate 和 Chroma。
有趣的是,AI 正在超越 IT,并在整个企业中实现民主化(类似于老话“众人拾柴火焰高”)。Vellum 发现,虽然工程团队最常参与 AI 项目 (82.3%),但领导层和高管 (60.8%)、主题专家 (57.5%)、产品团队 (55.4%) 和设计部门 (38.2%) 也加入了进来。
Sharma 指出,这在很大程度上是由于 AI 的易用性(以及人们对 AI 的普遍热情)。
“这是我们第一次看到软件以一种非常非常跨职能的方式开发,尤其是因为提示可以用自然语言编写,”他说。“传统的软件通常更确定性。而这是非确定性的,这使得更多人参与到开发中。”
尽管如此,企业仍然面临着巨大的挑战,特别是围绕 AI 幻觉和提示、模型速度和性能、数据访问和安全以及获得重要利益相关者的认可。
Sharma 指出,与此同时,虽然越来越多的非技术用户参与进来,但企业内部仍然缺乏纯粹的技术专业知识。“将所有不同的活动部件连接起来仍然是一项技能,目前只有少数开发人员掌握,”他说。“所以这是一个普遍的挑战。”
然而,Sharma 指出,许多现有的挑战可以通过工具、平台和服务来克服,这些工具、平台和服务可以帮助开发人员评估复杂的 AI 系统。开发人员可以在内部或使用第三方平台或框架来执行工具;然而,Vellum 发现,近 18% 的开发人员在没有任何工具的情况下定义提示和编排逻辑。
Sharma 指出,“当你拥有合适的工具来指导你完成开发旅程时,缺乏技术专业知识就会变得更容易。”除了 Vellum 之外,调查参与者使用的框架和平台还包括 Langchain、Llama Index、Langfuse、CrewAI 和 Voiceflow。
克服常见问题(包括幻觉)的另一种方法是执行评估,或使用特定指标来测试给定响应的正确性。“但尽管如此,[开发人员] 并没有像他们应该的那样一致地进行评估,”Sharma 说。
他表示,特别是在涉及高级代理系统时,企业需要可靠的评估流程。Sharma 指出,AI 代理具有高度的非确定性,因为它们会调用外部系统并执行自主操作。
“人们正在尝试构建相当先进的系统,即代理系统,这需要大量的测试用例和某种自动测试框架来确保它在生产环境中可靠地执行,”Sharma 说。
虽然一些开发人员正在利用自动评估工具、A/B 测试和开源评估框架,但 Vellum 发现,超过四分之三的开发人员仍在进行手动测试和审查。
“手动测试需要时间,对吧?而且手动测试的样本量通常远低于自动测试,”Sharma 说。“在了解技术、如何进行大规模自动评估方面可能存在挑战。”
最终,他强调了采用协同工作的混合系统的重要性——从云到应用程序编程接口 (API)。“将 AI 视为工具箱中的工具,而不是万能的解决方案,”他说。