数据处理将原始数据提炼为人工智能模型提供支持的艺术常常被忽视——直到缺乏强大的处理能力导致低质量的输入导致输出不佳
在对人工智能主导地位的不懈追求中,全球科技巨头和创新型初创企业都陷入了数据军备竞赛,行业正面临眼大肚子小的危险。
人们正在寻求越来越多的数据来填充日益复杂的人工智能模型,这些模型目前正在通过 GenAI 先驱 ChatGPT 等模型彻底改变跨行业的业务。
但是推动这场革命的动力是什么?数据!就像幕后工作的绿野仙踪魔法师一样,数据被收集、精心处理,然后提炼,以满足人工智能模型永不满足的胃口。
然而,数据处理技术往往被忽视,被人工智能本身的耀眼成就所掩盖。但对于许多幕后工作者来说,这带来了一个迫在眉睫的问题。
对于企业来说,这是一个财务问题;对于系统用户来说,这可能导致输出质量低下。
数据处理细节
数据处理是数字世界与我们寻求发现的见解之间的桥梁。它获取生成的原始数据并将其转换为 AI 系统可以理解和利用的格式,例如机器学习(其中模型学习模式并做出预测)或自然语言处理(其中 AI 系统理解并生成人类语言)。
数据处理过程
例如,如果你想从 Excel 表中提取数据,这可能是一项很容易完成的任务。将数字整齐地放入各自标记的列和行中,让机器提取、解释和采取行动相对容易。
“另一方面,问题在于,假设我们想使用人工智能来为 X(以前的 Twitter)上关于某家公司的每条评论打分,是正面还是负面,”Alteryx 首席数据和分析官 Alan Jacobson 说道。“我们可能无法像人类一样评估这些词语,更不用说同意计算机的评分方法了。这种模糊性正是挑战所在。”
这就是在 AI 项目中处理非结构化和异构数据源时遇到的问题。虽然可以获得洞察力,但将它们放入未经提炼的系统中可能会扭曲模型。
为了解决这个问题,公司可以采用数据清理方法。这些方法可以解决错误和不一致问题,确保信息在进入系统之前是准确和完整的。
然而,人工智能系统需要大量数据。“从本质上讲,人工智能模型必须在非常大的数据集上进行训练,因此所需的数据管理容量会成倍增加,”Informatica 欧洲、中东和非洲地区首席架构师 Siddharth Rajagopal 解释道。
大型语言模型中现在有数百 TB 的数据在运行,因此不再可能像历史上审查较小的结构化模型那样对每个数据元素进行相同的检查。
因此,为了实现这一目标,公司需要调用越来越强大的处理能力,这需要大量的计算资源。这不仅耗时,而且成本高昂。
对于某些人来说,为这些不断发展的人工智能模型完善这些数据的能力可能是难以企及的。
多式联运的未来
同样,随着人工智能模型的发展,它们越来越多地处理图像和音频数据以支持语言模型。
虽然这带来了大量新数据和理解,但这种多模式方法需要开发更复杂的数据处理技术来有效地处理多种数据类型。
Slalom 数据和分析业务主管 Richard Fayers 指出:“处理图像和音频等非结构化数据会带来额外的挑战,例如特征提取、表示学习以及与文本数据的集成。”“计算机视觉、语音识别和多模式融合等技术将变得越来越重要,以使 AI 模型能够理解和生成丰富的多模式内容。”
平衡行为:数量与质量
尽管可用的数据量惊人,但真正的挑战在于在数量和质量之间取得平衡。
“如果没有足够的数量和质量的数据,就没有人工智能,”拉贾戈帕尔解释道。
数据质量差可能会带来严重后果,麻省理工学院估计,数据质量差将使大多数公司损失高达 15-20% 的收入。
然而,过于追求数据质量也会导致开发进度放缓或模型受到更多限制,而这在人工智能竞赛中可能会付出高昂代价,而这场竞赛似乎是由类似于马克·扎克伯格的座右铭“快速行动,打破常规”的情绪所推动的。
“这更多地关乎优先排序和采取正确的主动措施,而不是平衡需求,”费耶斯说。“你不应该为了实现(比如说)更大更复杂的模型而牺牲预处理,因为这会损害输入数据的质量和准确性,最终影响它们的性能和可靠性。”
保护生态系统
随着人工智能生成内容的不断激增,强大的数据处理
对于确保模型质量变得越来越重要。
“我们认为,人工智能数据处理的主要驱动因素之一将涉及从训练数据集中检测和过滤人工智能生成的内容,”Fayers 说。“可以把它想象成人工智能的‘疯牛病’——我们需要数据处理来检测和阻止人工智能农场大量生产低质量的内容,否则我们将进入最终的人工智能恶性循环,导致虚假信息、阴谋论、宣传和错误信息影响我们的决策过程。”
欧洲执法组织欧洲刑警组织的一份报告指出,到2026年,90%的网络内容将由人工智能生成。除了扭曲质量之外,一些研究人员认为,这种“人工智能喂养人工智能”的现象可能导致模型崩溃,产出逐渐下降。
因此,保护模型是关键。Rajagopal 认为,云计算可能是这项管理的关键。“要使人工智能取得成功,它需要访问能够快速识别模型所有必要特征的智能数据管理云。”
不过,拉贾戈帕尔指出,“弄清楚如何提供所需的大量计算能力是一项挑战。”随着人工智能的发展,在没有这种云的情况下,在人力或组织层面实施负责任的数据管理实践将变得越来越重要。
邓白氏全球数据负责人高级副总裁 Andy Crisp 解释道:“构建 AI 模型时数据处理的未来主要在于确保使用 AI 的企业对其数据资产有深入的了解,并建立适当的数据治理系统。AI 的智能程度取决于为其提供动力的数据,因此引入政策并遵守数据质量标准对于防止可能损害 AI 输出的不合格数据的涌入至关重要。坚实的数据基础不仅可以提高预测的准确性,还可以巩固从 AI 算法中获得的洞察力,从而为更明智的决策创建一个强大的框架。”
**************
请务必查看最新一期的《AI Magazine》 ,并订阅我们的全球会议系列 – Tech & AI LIVE 2024
**************
AI Magazine是BizClik旗下品牌