前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
科技

人工智能寻求更多输入时非结构化数据的问题

NEXTECH
Last updated: 2024年7月7日 下午9:25
By NEXTECH
Share
19 Min Read
SHARE

数据处理将原始数据提炼为人工智能模型提供支持的艺术常常被忽视——直到缺乏强大的处理能力导致低质量的输入导致输出不佳

Contents
数据处理细节数据处理过程多式联运的未来平衡行为:数量与质量保护生态系统

在对人工智能主导地位的不懈追求中,全球科技巨头和创新型初创企业都陷入了数据军备竞赛,行业正面临眼大肚子小的危险。

人们正在寻求越来越多的数据来填充日益复杂的人工智能模型,这些模型目前正在通过 GenAI 先驱 ChatGPT 等模型彻底改变跨行业的业务。

但是推动这场革命的动力是什么?数据!就像幕后工作的绿野仙踪魔法师一样,数据被收集、精心处理,然后提炼,以满足人工智能模型永不满足的胃口。

然而,数据处理技术往往被忽视,被人工智能本身的耀眼成就所掩盖。但对于许多幕后工作者来说,这带来了一个迫在眉睫的问题。

对于企业来说,这是一个财务问题;对于系统用户来说,这可能导致输出质量低下。

You Might Also Like

实际所有权信息报告:美国初创企业必须披露其所有者,以遵守 FinCEN 的新透明度规则
POPG 将扩展社区驱动的 Web3 生态系统
SpaceX 北极星计划启动历史性私人任务,目标是达到比空间站高 3 倍的高度
Flipster 推出交易竞赛,奖品价值 150,000 USDT,庆祝成立一周年

数据处理细节

数据处理是数字世界与我们寻求发现的见解之间的桥梁。它获取生成的原始数据并将其转换为 AI 系统可以理解和利用的格式,例如机器学习(其中模型学习模式并做出预测)或自然语言处理(其中 AI 系统理解并生成人类语言)。

数据处理过程

例如,如果你想从 Excel 表中提取数据,这可能是一项很容易完成的任务。将数字整齐地放入各自标记的列和行中,让机器提取、解释和采取行动相对容易。

“另一方面,问题在于,假设我们想使用人工智能来为 X(以前的 Twitter)上关于某家公司的每条评论打分,是正面还是负面,”Alteryx 首席数据和分析官 Alan Jacobson 说道。“我们可能无法像人类一样评估这些词语,更不用说同意计算机的评分方法了。这种模糊性正是挑战所在。”

这就是在 AI 项目中处理非结构化和异构数据源时遇到的问题。虽然可以获得洞察力,但将它们放入未经提炼的系统中可能会扭曲模型。

为了解决这个问题,公司可以采用数据清理方法。这些方法可以解决错误和不一致问题,确保信息在进入系统之前是准确和完整的。

然而,人工智能系统需要大量数据。“从本质上讲,人工智能模型必须在非常大的数据集上进行训练,因此所需的数据管理容量会成倍增加,”Informatica 欧洲、中东和非洲地区首席架构师 Siddharth Rajagopal 解释道。

大型语言模型中现在有数百 TB 的数据在运行,因此不再可能像历史上审查较小的结构化模型那样对每个数据元素进行相同的检查。

因此,为了实现这一目标,公司需要调用越来越强大的处理能力,这需要大量的计算资源。这不仅耗时,而且成本高昂。

对于某些人来说,为这些不断发展的人工智能模型完善这些数据的能力可能是难以企及的。

多式联运的未来

同样,随着人工智能模型的发展,它们越来越多地处理图像和音频数据以支持语言模型。

虽然这带来了大量新数据和理解,但这种多模式方法需要开发更复杂的数据处理技术来有效地处理多种数据类型。

Slalom 数据和分析业务主管 Richard Fayers 指出:“处理图像和音频等非结构化数据会带来额外的挑战,例如特征提取、表示学习以及与文本数据的集成。”“计算机视觉、语音识别和多模式融合等技术将变得越来越重要,以使 AI 模型能够理解和生成丰富的多模式内容。”

平衡行为:数量与质量

尽管可用的数据量惊人,但真正的挑战在于在数量和质量之间取得平衡。

“如果没有足够的数量和质量的数据,就没有人工智能,”拉贾戈帕尔解释道。

数据质量差可能会带来严重后果,麻省理工学院估计,数据质量差将使大多数公司损失高达 15-20% 的收入。

然而,过于追求数据质量也会导致开发进度放缓或模型受到更多限制,而这在人工智能竞赛中可能会付出高昂代价,而这场竞赛似乎是由类似于马克·扎克伯格的座右铭“快速行动,打破常规”的情绪所推动的。

“这更多地关乎优先排序和采取正确的主动措施,而不是平衡需求,”费耶斯说。“你不应该为了实现(比如说)更大更复杂的模型而牺牲预处理,因为这会损害输入数据的质量和准确性,最终影响它们的性能和可靠性。”

保护生态系统

随着人工智能生成内容的不断激增,强大的数据处理

对于确保模型质量变得越来越重要。

“我们认为,人工智能数据处理的主要驱动因素之一将涉及从训练数据集中检测和过滤人工智能生成的内容,”Fayers 说。“可以把它想象成人工智能的‘疯牛病’——我们需要数据处理来检测和阻止人工智能农场大量生产低质量的内容,否则我们将进入最终的人工智能恶性循环,导致虚假信息、阴谋论、宣传和错误信息影响我们的决策过程。”

欧洲执法组织欧洲刑警组织的一份报告指出,到2026年,90%的网络内容将由人工智能生成。除了扭曲质量之外,一些研究人员认为,这种“人工智能喂养人工智能”的现象可能导致模型崩溃,产出逐渐下降。

因此,保护模型是关键。Rajagopal 认为,云计算可能是这项管理的关键。“要使人工智能取得成功,它需要访问能够快速识别模型所有必要特征的智能数据管理云。”

不过,拉贾戈帕尔指出,“弄清楚如何提供所需的大量计算能力是一项挑战。”随着人工智能的发展,在没有这种云的情况下,在人力或组织层面实施负责任的数据管理实践将变得越来越重要。
邓白氏全球数据负责人高级副总裁 Andy Crisp 解释道:“构建 AI 模型时数据处理的未来主要在于确保使用 AI 的企业对其数据资产有深入的了解,并建立适当的数据治理系统。AI 的智能程度取决于为其提供动力的数据,因此引入政策并遵守数据质量标准对于防止可能损害 AI 输出的不合格数据的涌入至关重要。坚实的数据基础不仅可以提高预测的准确性,还可以巩固从 AI 算法中获得的洞察力,从而为更明智的决策创建一个强大的框架。”

**************

请务必查看最新一期的《AI Magazine》 ,并订阅我们的全球会议系列 – Tech & AI LIVE 2024

**************

AI Magazine是BizClik旗下品牌

TAGGED:人工智能
Share This Article
Email Copy Link Print
Previous Article 中信集团亮相2024世界人工智能大会,八大场景展示“AI+产业”新可能
Next Article Nurma 的 David Kearney 谈论人工智能技能提升和工作保障
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
谷歌裁员HR和云部门,加码AI,谁是下一个?
初创
20250516230244464.jpg
比特币暴跌至78500美元,加密货币市场蒸发1万亿美元
初创
20250516174444127.png
Counterpoint:2024年二手手机占中国智能手机销量的20%
报告
4月新能源车销量TOP10:小米强势回归 特斯拉濒临落榜
乘联分会:2025年4月新能源车销量90.5万辆,同比增长33.9%
报告

相关内容

初创科技

Adaptive Shield 在 Black Hat USA 上展示适用于 SaaS 的全新 ITDR 平台

2024年7月31日
科技

人工智能咨询公司前十名

2024年7月5日
报告

国家人工智能产业综合标准化体系建设指南(2024版)

2024年7月16日
初创科技

澳大利亚公司 NYBlue 收购了超过一百万克拉的蓝色锆石,并推出了 RWA 代币

2024年8月7日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?