数据管理:人工智能时代的基石
人工智能的浪潮席卷全球,为各行各业带来前所未有的变革。然而,释放人工智能的巨大潜能,离不开坚实的数据管理基础。数据是人工智能的燃料,而数据管理则是点燃这把火的火种。只有建立起高效、可靠的数据管理体系,才能让人工智能引擎持续运转,不断迭代优化,最终实现真正的价值。
然而,当今数据管理面临着前所未有的挑战。数据量呈爆炸式增长,研究表明仅过去五年数据量就翻了一番。庞大的数据海洋中,企业却只能触及冰山一角,高达68%的数据处于闲置状态。更令人头疼的是,数据的结构和格式千差万别,据麻省理工学院统计,80%至90%的数据是非结构化的,这无疑增加了数据利用的难度。此外,数据处理速度也面临着前所未有的压力,某些应用场景甚至要求数据在10毫秒内完成处理,这相当于眨眼速度的十分之一。
数据生态系统正在变得越来越庞大、多元和快速,而人工智能革命更是将数据管理的挑战推向了新的高度。
数据生命周期错综复杂,涉及多个步骤、多个环节和多个工具,这导致了数据管理方式的差异化,以及成熟度和工具化的参差不齐。
为了让用户能够利用可靠的数据进行创新,我们首先需要解决数据管理的基础问题:自助服务、自动化和可扩展性。
- 自助服务意味着赋予用户以最小的阻力完成工作的能力。它涵盖了无缝数据发现、简化数据生产以及民主化数据访问的工具等方面。
- 自动化确保所有核心数据管理功能都嵌入到用户与数据交互的工具和体验中。
- 数据生态系统需要扩展,尤其是在人工智能时代。企业需要考虑某些技术的可扩展性、弹性能力以及服务水平协议,这些协议设定了数据管理的基本义务(以及执行这些协议的机制)。
这些原则为生产和消费优质数据奠定了基础。
数据生产者负责数据入库和组织,以实现快速高效的消费。一个设计良好的自助服务门户可以发挥关键作用,它允许生产者与整个生态系统中的系统(如存储、访问控制、审批、版本控制和业务目录)无缝交互。目标是创建一个统一的控制平面,以减轻这些系统的复杂性,使数据能够以正确的格式、在正确的时间和正确的地点提供。
为了扩展和执行治理,企业可以选择集中式平台或联邦模型,甚至采用混合方法。集中式平台简化了数据发布和治理规则,而联邦模型则提供灵活性,使用专门的SDK在本地管理治理和基础设施。关键在于实施一致的机制,以确保自动化和可扩展性,使企业能够可靠地生产高质量数据,为人工智能创新提供燃料。
数据消费者(如数据科学家和数据工程师)需要轻松访问可靠、高质量的数据,以便快速进行实验和开发。简化存储策略是基础步骤。通过将计算集中在数据湖中并使用单一存储层,企业可以最大限度地减少数据蔓延,并通过使计算引擎能够从单一存储层消费数据来降低复杂性。
企业还应采用区域策略来处理不同的用例。例如,原始区域可以支持扩展的数据和文件类型,如非结构化数据,而精选区域则执行更严格的模式和质量要求。这种设置允许灵活性和维护治理和数据质量。消费者可以使用这些区域进行活动,例如创建用于实验的个人空间或用于团队项目的协作区域。
自动化服务确保数据访问、生命周期管理和合规性,使用户能够充满信心和速度地进行创新。
有效的人工智能策略建立在强大、设计良好的数据生态系统之上。通过简化数据生产和消费方式,并提高数据质量,企业可以赋予用户以信心在新的性能驱动领域进行创新。
作为基础,企业必须优先考虑增强可信度和可访问性的生态系统和流程。通过实施上述原则,企业可以做到这一点——构建可扩展且可执行的数据管理,这将推动人工智能的快速实验,并最终带来长期的商业价值。
Marty Andolino,Capital One 软件工程副总裁
Kajal Wood,Capital One 软件工程高级总监
VB Lab Insights 内容是与一家公司合作创建的,该公司要么为帖子付费,要么与 VentureBeat 存在业务关系,并且始终明确标记。有关更多信息,请联系 sales@venturebeat.com。