70年代技术依然领先，LLM仍值得使用

加入我们的每日和每周通讯，获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多

今年，我们麻省理工学院数据到 AI 实验室的团队决定尝试使用大型语言模型 (LLM) 来执行一项通常留给截然不同的机器学习工具的任务——检测时间序列数据中的异常。这在几十年来一直是机器学习 (ML) 的一项常见任务，在工业中经常被用来预测和发现重型机械的问题。我们开发了一个框架，用于在这种情况下使用 LLM，然后将其性能与 10 种其他方法进行了比较，从最先进的深度学习工具到 20 世纪 70 年代的一种简单方法，称为自回归积分移动平均 (ARIMA)。最终，LLM 在大多数情况下都输给了其他模型——甚至包括老式的 ARIMA，它在 11 个数据集中的 7 个数据集上都优于它。

对于那些梦想着 LLM 成为一种完全通用的问题解决技术的人来说，这听起来可能像是一场失败。对于 AI 社区中的许多人来说——他们正在发现这些工具的当前局限性——这可能并不令人意外。但我们的发现中有两个方面确实让我们感到惊讶。首先，LLM 能够胜过一些模型，包括一些基于 Transformer 的深度学习方法，让我们措手不及。第二个，也许更重要的是，与其他模型不同，LLM 在没有任何微调的情况下完成了所有这些工作。我们直接使用了 GPT-3.5 和 Mistral LLM，并且没有对它们进行任何调整。

对于非 LLM 方法，我们将使用信号来训练深度学习模型或上述 20 世纪 70 年代的模型，我们希望检测其中的异常。从本质上讲，我们将使用信号的历史数据来训练模型，以便它了解“正常”是什么样的。然后，我们将部署模型，使其能够实时处理信号的新值，检测任何与正常情况的偏差，并将它们标记为异常。

但是，当我们使用 LLM 时，我们没有执行这个两步过程——LLM 没有机会在实时检测异常之前从信号中学习“正常”。我们称之为零样本学习。从这个角度来看，这是一个了不起的成就。LLM 能够执行零样本学习——无需任何先前的示例或微调即可进入这个问题——意味着我们现在有了一种方法可以检测异常，而无需为每个信号或特定条件从头开始训练特定模型。这是一个巨大的效率提升，因为某些类型的重型机械，例如卫星，可能拥有数千个信号，而其他类型的机械可能需要针对特定条件进行训练。使用 LLM，可以完全跳过这些耗时的步骤。

当前异常检测方法的第二个，也许更具挑战性的部分是用于训练和部署 ML 模型的两步过程。虽然部署听起来很简单，但实际上非常具有挑战性。部署经过训练的模型需要我们将所有代码转换为可以在生产环境中运行的代码。更重要的是，我们必须说服最终用户，在本例中是操作员，允许我们部署模型。操作员本身并不总是拥有机器学习方面的经验，因此他们通常认为这是一个额外的、令人困惑的项目，添加到他们已经不堪重负的工作流程中。他们可能会提出一些问题，例如“您将以多高的频率重新训练”、“我们如何将数据馈送到模型中”、“我们如何将其用于各种信号并在不需要异常检测的其他信号上将其关闭”等等。

这种移交通常会导致摩擦，最终导致无法部署经过训练的模型。使用 LLM，由于不需要训练或更新，操作员可以控制。他们可以使用 API 查询，添加他们想要检测异常的信号，删除他们不需要异常检测的信号，并在无需依赖其他团队的情况下打开或关闭服务。操作员直接控制异常检测的能力将改变围绕部署的困难动态，并可能有助于使这些工具更加普及。

尽管它们促使我们从根本上重新思考异常检测，但基于 LLM 的技术尚未表现得像最先进的深度学习模型那样好，或者（对于 7 个数据集）像 20 世纪 70 年代的 ARIMA 模型那样好。这可能是因为我在麻省理工学院的团队没有以任何方式微调或修改 LLM，也没有创建专门用于时间序列的 LLM。

虽然所有这些操作都可能推动前进，但我们需要谨慎对待这种微调的方式，以免损害 LLM 在该领域能够提供的两个主要优势。（毕竟，虽然上述问题是真实的，但它们是可以解决的。）考虑到这一点，以下是我们不能做的事情来提高 LLM 的异常检测准确性：

针对特定信号微调现有的 LLM，因为这将破坏它们的“零样本”性质。
构建一个用于时间序列的基础 LLM，并为每种新型机器添加一个微调层。

这两个步骤将违背使用 LLM 的目的，并将我们带回到起点：必须为每个信号训练一个模型，并在部署方面面临困难。

为了让 LLM 与现有方法竞争——异常检测或其他 ML 任务——它们必须能够以一种新的方式执行任务，或者开辟一组全新的可能性。为了证明添加任何层的 LLM 仍然构成改进，AI 社区必须开发方法、程序和实践，以确保某些领域的改进不会消除 LLM 的其他优势。

对于经典的 ML 来说，花了近 20 年的时间才建立起我们今天依赖的训练、测试和验证实践。即使有了这个过程，我们仍然不能总是保证模型在测试环境中的性能与其部署后的实际性能相匹配。我们遇到了标签泄漏问题、训练中的数据偏差以及太多其他问题，甚至无法在这里列出。

如果我们在没有这些特定保障措施的情况下将这条有希望的新道路推得太远，我们可能会再次陷入重新发明轮子的境地——也许是一个更复杂的轮子。

Kalyan Veeramachaneni 是麻省理工学院数据到 AI 实验室的主任。他也是DataCebo的联合创始人。

Sarah Alnegheimish 是麻省理工学院数据到 AI 实验室的研究员。

DataDecisionMakers

欢迎来到 VentureBeat 社区！

DataDecisionMakers 是专家（包括从事数据工作的技术人员）可以分享数据相关见解和创新的地方。

如果您想了解前沿理念和最新信息、最佳实践以及数据和数据技术的未来，请加入我们，成为 DataDecisionMakers。

您甚至可以考虑自己撰写文章！

阅读 DataDecisionMakers 的更多内容

70年代技术依然领先，LLM仍值得使用

发表回复取消回复

最新内容

传奇游戏重磅回归：科技与流媒体时代的经典复兴

2026年AI模型必备：四大顶尖网页抓取API深度评测与选型指南

星链让我在任何地方都能“居家办公”——如今，我渴望改变

谷歌眼镜的功与过：一场超前13年的科技预言与争议

相关内容

人工智能先驱辛顿获诺贝尔物理学奖

Meta Llama 3.2 挑战 OpenAI 和 Anthropic

Palantir创始工程师深度解析：FDE模式如何重塑AI Agent时代的PMF范式

网络封闭：AI爬虫大战风险

分类

快速链接

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复