AI 浪潮汹涌,数据质量成企业最大痛点
人工智能正以前所未有的速度席卷各行各业,企业纷纷将目光投向 AI,希望借助其强大的力量提升效率、创造价值。然而,随着 AI 应用场景的不断拓展,一个关键问题逐渐浮出水面:高质量数据的获取和管理成为了企业构建和维护有效 AI 模型的最大障碍。
Appen 最新发布的《2024 年 AI 现状报告》揭示了这一趋势。报告显示,过去一年,生成式 AI 的采用率增长了 17%,但企业在数据准备和质量保证方面面临着严峻挑战。数据来源、清洗和标注方面的瓶颈同比增长了 10%,凸显了构建和维护有效 AI 模型的复杂性。
Appen 首席战略官陈思在接受 VentureBeat 采访时表示:“随着 AI 模型处理越来越复杂和专业的问题,对数据的需求也随之改变。企业发现,仅仅拥有大量数据已经不再足够。为了微调模型,数据需要达到极高的质量,这意味着数据必须准确、多样、正确标注,并针对特定的 AI 应用场景进行定制。”
报告指出,企业在 AI 应用中面临着以下五个关键挑战:
- 生成式 AI 的快速发展带来了新的数据管理难题。生成式 AI 的输出更加多样化、不可预测和主观,这使得定义和衡量成功变得更加困难。为了实现企业级 AI,模型必须使用针对特定应用场景定制的高质量数据进行训练。
- 定制数据采集成为生成式 AI 模型训练数据的主要来源。企业正在逐渐放弃通用网络爬取数据,转而采用定制化、可靠的数据集。
- AI 项目部署率和 ROI 出现下降趋势。自 2021 年以来,成功部署的 AI 项目比例下降了 8.1%,而部署后展现出显著 ROI 的项目比例下降了 9.4%。这主要归因于 AI 模型的复杂性不断增加。简单的图像识别和语音自动化等应用已经成为成熟技术,但企业正在转向更具雄心的 AI 项目,例如生成式 AI,这些项目需要定制化、高质量的数据,并且实施难度更大。
- 数据准确性下降,对数据质量的要求更高。随着 AI 模型变得更加复杂,它们所需的数据也变得更加复杂,通常需要专业化、高质量的标注。令人震惊的是,86% 的企业现在至少每季度重新训练或更新一次模型,这突显了对新鲜、相关数据的需求。然而,随着更新频率的增加,确保数据的准确性和多样性变得更加困难。企业正在转向外部数据提供商来满足这些需求,近 90% 的企业依赖外部来源来训练和评估其模型。
- 数据准备问题日益突出。数据来源、清洗和标注方面的瓶颈同比增长了 10%,直接影响着企业成功部署 AI 项目的能力。随着 AI 应用场景的专业化,准备合适数据的挑战变得更加严峻。
为了应对这些挑战,企业正在制定长期战略,强调数据准确性、一致性和多样性。许多企业还寻求与数据提供商建立战略合作伙伴关系,以帮助应对 AI 数据生命周期的复杂性。
尽管 AI 技术不断发展,但人类参与仍然不可或缺。报告发现,80% 的受访者强调了“人机协同机器学习”的重要性,即利用人类专业知识来指导和改进 AI 模型。
人类专家在确保偏差缓解和道德 AI 开发方面尤为重要。他们通过提供特定领域的知识并识别 AI 输出中的潜在偏差,帮助改进模型,使其与现实世界行为和价值观保持一致。这对于生成式 AI 尤其重要,因为其输出可能不可预测,需要仔细监督以防止出现有害或有偏见的结果。