机器学习随着基于 NLP 的系统越来越多地应用于企业运营,企业必须找到一种方法来平衡其潜力与当前的局限性
随着生成式人工智能(Gen AI)彻底占领了企业的想象力,自然语言处理(NLP)已经成为各个行业企业更常见的名词。
从客户服务聊天机器人到高级数据分析,NLP 正在重塑公司与信息和客户互动的方式。
彭博社首席技术官办公室 NLP 主管 Sebastian Gehrmann 表示:“NLP 已经变得更加普遍,并且已经成长为推动用户体验的手段,而不仅仅是丰富用户体验。”
以前,技术在组织运营中扮演着辅助角色。但随着其能力的增强,人们对它的期望也随之增长。这种地位的转变使企业能够收获其回报,但如果不加以控制,也会感受到其愤怒。
NLP 的演变
自 20 世纪 40 年代末诞生以来,NLP 已取得长足进步。它最初只是 AI 的一个细分领域,如今已发展成为一项强大的技术,对全球企业具有深远影响。
Version 1 首席技术官 Brad Mallard 解释道:“过去 2 年,由于 Generative Transformer 模型的进步(由大量计算、数据和模型调整技术的进步推动),NLP 能力得到了巨大提升。”
现代 NLP 系统采用各种复杂的技术来理解和生成人类语言。这些技术包括大型语言模型 (LLM)、深度学习算法和高级神经网络。
这些系统分析大量文本数据,考虑上下文、情感和语言细微差别,以提供类似人类的反应或从非结构化信息中提取有价值的见解。
这一进步为企业以更自然、更直观的方式与数据和客户互动开辟了新的可能性。
NLP 的表现
文本生成、问答、文本摘要、文本分类和命名实体识别都是该系统目前能够完成的一些最值得注意的 NLP 任务。
其应用多种多样且不断增长,从自动报告生成到客户反馈的情绪分析。
尽管 NLP 具有这些明显的实用性并且确实目前有应用,但它在关键任务企业应用中面临着重大障碍。
进步的代价
“当 NLP 成为推动整个用户体验的技术时,失败就会更加明显和令人沮丧,”Brad 表示。
面向客户的应用程序中 NLP 的可见性的提高提高了准确性和可靠性。
主要挑战之一是被称为“幻觉”的现象,即人工智能模型生成看似合理但事实上不正确的信息。
Gartner 杰出副总裁分析师 Bern Elliot 解释道:“这些模型基于内部算法得出的答案有时无法达到我们预期的输出。这被称为‘幻觉’,因为输出结果并非基于明确的证据。”
例如,幻觉系统可能会提供错误的信息,就像某个系统建议提词者在披萨上涂上“无毒”胶水以帮助奶酪粘住一样。
但这些幻觉在内部运作时也同样会带来问题。
例如,想象一下,NLP 系统错误地总结了一份财务文件,或者误解了重要的法律文件。
声誉受损和财务损失的可能性相当大。然而,NLP 呈现这些信息的能力才是真正的危险所在。
塞巴斯蒂安解释道:“由于生成的自然语言即使是错误的,听起来也是合理且令人信服的,因此在不验证输出的情况下完全依赖它会带来明显的危险。”
孤立事件的破坏性已经足够大,但想象一下这些系统在企业层面和项目开始时的使用。一个幻觉可能会成为整个活动或战略的基础。
同样,自 NLP 最初创建以来,世界也发生了翻天覆地的变化,当时西方世界几乎占据了全球所有的计算机和互联网用户。
人类语言的复杂性,包括文化细微差别和语境理解,给 NLP 系统带来了持续的挑战。
布拉德解释道:“基于文化规范,情境理解至关重要,如果我们要确保数字和人类之间随着时间的推移更加自然地互动,我们必须建立情境和地理感知的模型。”
这种文化和语言多样性为 NLP 的开发和部署增加了另一层复杂性。
塞巴斯蒂安指出:“排除非英语母语者,或只向 NLP 系统灌输小型开发团队的价值观和文化背景,实际上会排除全球大多数人口。”
这种缺乏理解可能会阻碍不同文化背景的人以及不同的操作方式充分利用这些 NLP 系统。
数据困境:质量胜过数量
以上这些问题都集中在应用端,但其实它们的根源都来自于同一个地方:数据。
NLP 系统的准确性和有效性在很大程度上取决于其训练数据的质量和多样性。但确保这些数据具有代表性、公正性和高质量是一项艰巨而复杂的任务。
对于拥有大量资源的大型科技公司来说,这可能不是一个重大问题。然而,在人工智能民主化的时代,小型初创公司现在正在提供 NLP 服务,这种数据管理和模型微调的过程可能是一个重大挑战。
Sebastian 解释道:“NLP 产品的开发生命周期有很多步骤。在原始的非结构化文本数据上进行训练,在人工或机器创建的注释上进行调整,并在实时环境中进行部署,其中模型可能与知识图谱和元数据交互,从结构化数据库中提取信息,或在文档上运行。”
由于这些系统对数据的需求非常大,为了满足这些系统所需的数量,数据的质量有时会被忽视。
尽管可以对此类数据进行预处理,但布拉德认为最好还是要多加注意其来源:“Reddit 或社交媒体流上的书面或口头文字的质量并不总是最好的,因此不能很好地利用数据。”
不良、不完整或有偏见的训练数据可能会导致结果偏差,延续现有的不准确性、缺陷、偏见,或产生新的不准确性、缺陷、偏见。
停止幻觉
随着 NLP 技术的不断发展,新的方法不断涌现以应对这些挑战。
一种有前景的解决方案被称为检索增强生成 (RAG)。该技术旨在通过将语言模型建立在经过验证的信息源中来减少幻觉。
Bern 解释道:“RAG 是一种实用方法,它通过提供企业数据和信息供 LLM 处理,从而克服了一般 LLM 的局限性。它本质上是一种允许检索目标信息(通常通过搜索)然后作为提示的一部分提交给 LLM 的方法,从而使 LLM 能够提供有针对性的答案。”
另一个创新领域是 NLP 与其他 AI 技术的融合。
塞巴斯蒂安预测,由 NLP 驱动的 AI 应用将帮助我们更有效地做出决策,技术的融合将带来“更复杂、更强大的 AI 系统”,可以处理各个领域的复杂任务。
除了使用 RAG 等技术管理模型的缺点之外,业界还在寻求新的和改进的模型来提高准确性。
“我们已经开始看到的一个趋势是模型处理更多样化输入的能力,”塞巴斯蒂安说。“另一个趋势是模型效率的提高。我们将看到一个持续的趋势,即通过训练较小的模型来减轻这种负担,例如通过一个大型教师模型来训练其自身的较小知识提炼版本。”
布拉德认为,这种变化可能更为根本:“我们可能会看到方法的转变,从变压器模型转变为替代方法,这些方法不再只是预测接下来会发生什么,而是更多地基于世界模型或对世界及其规则的理解。”
充分发挥 NLP 的作用
NLP 已经为组织及其内部受益于其系统的个人带来了好处。
然而,NLP 尚未充分发挥其潜力。IBM 英国和爱尔兰 AI 与业务转型服务执行合伙人 Michael Conway 解释道:“仅靠计算无法维持发展,因此改进技术和数学将提高效率——而效率,或者用更少的资源做更多的事情,将是 NLP 的目标。”
这些效率,加上新变压器模型的发展,可以完成更复杂的任务。
“想象一下这样一个世界,‘提出三种投资环保电池制造的策略’这样的查询会创建相关的研究报告,并只需单击按钮即可执行投资策略,”塞巴斯蒂安说。“或者‘准备我的一天’会根据您的投资组合情况整理新闻文章。”
随着企业继续将 NLP 集成到其运营中,他们必须把握当前面临的风险与回报之间的平衡。NLP 在企业应用中的旅程还远未结束。
“未来,NLP 将变得更加高效。我们不仅将拥有更多的计算能力,而且通过组织更加透明并使用可信数据来训练模型,系统将更加可信,”Michael 总结道。
随着技术的不断发展,成功将取决于能否正面应对当前的挑战并接受新兴的解决方案,以实现 NLP 的“真正前景”。
要阅读杂志中的完整故事,请点击此处
******
请务必查看最新一期的《AI Magazine》 ,并订阅我们的全球会议系列 – Tech & AI LIVE 2024
******
AI Magazine 是BizClik旗下品牌
塞巴斯蒂安·格尔曼 伯恩·埃利奥特 布拉德·马拉德 迈克尔·康威