AI Magazine 采访了 Komprise 联合创始人兼首席运营官 Krishna Subramanian AI Magazine 采访了 Komprise 的 Krishna Subramanian,探讨了如何改进非结构化数据并将其用于改善企业 AI 工作流程
虽然超过 90% 的数据都是非结构化的,但将数据引入 AI 的大部分创新都集中在结构化数据上。不过,目前仍有一些工作要做,以帮助数据利益相关者利用大量非结构化数据集来创造新价值或降低安全风险。
AI 数据工作流对业务发展来说变得无价之宝。它们可以帮助自动发现数据并将其分类到 AI 工具中,然后可以将其与 AI 工具集成以丰富非结构化数据,以便人们在为项目整理数据集时可以更轻松地找到所需内容。
考虑到这一点,AI Magazine 采访了 Komprise 联合创始人兼首席运营官 Krishna Subramanian,探讨了企业如何才能最好地利用各种类型的数据来更成功地进行创新。她解释了 AI 数据工作流程如何加快价值实现速度并扩大企业可以在大型数据集上部署的用例数量。
应对数据挑战
麻省理工学院的研究发现,阻碍人工智能准备就绪的最大挑战是数据集成或数据管道。特别是,管理数据量、将数据从本地移动到云端、实现实时访问和管理数据更改都被视为业务问题。
对此,Krishna 推测,管理数据量是将数据与 AI 结合使用的障碍,具体因为数据分散在许多存储孤岛中。
“IT 组织正被大量非结构化数据压得喘不过气来,他们不仅要整合这些数据,还要在保持成本效益的同时访问、迁移、存储、管理和保护这些数据,”她说。“在这些庞大的数据资产中搜索与 AI 相关的数据是一项挑战。因此,拥有跨多供应商和多云存储分析数据的系统和流程非常重要。
Komprise 是一个数据管理平台,可帮助用户管理和移动非结构化数据
“然后,您可以使用元数据特征(例如文件名、目录路径、文件创建者以及上次修改时间)以及基于数据内容的搜索,轻松搜索要用于 AI 的数据。然后,您可以通过复制或移动到 AI 服务来系统地调动感兴趣的数据。
“因此,首先了解数据、对其进行分类并将其移动到可以在可负担的 AI 工具中使用的地方是 AI 成功的基础,并且需要系统的数据管理。”
实时访问数据可能具有挑战性,特别是当企业拥有数十亿个文件分布在许多不易访问的数据孤岛中时。对此,Krishan 建议企业 IT 需要一个允许搜索功能的“统一数据索引”。
“能够通过元数据标签进行搜索并使用 AI 服务丰富这些标签是理想的,”她解释道。“标记为非结构化数据提供了背景和一些结构,这使得研究人员和数据科学家在开展项目时更容易找到他们需要的内容。否则,他们可能需要几个月的时间才能找到正确的数据集。
“我们必须将自动化应用于数据的发现、分类和工作流程编排,以确保正确的数据被传送给人工智能工具。”
确保系统安全
就人工智能发展而言,数据治理和安全不可避免地是企业关注的重点。为了保持信任并负责任地使用人工智能,建议世界各地利用人工智能的企业对如何使用该技术制定明确的规定。
Krishna 解释道:“大多数组织都关心如何保护敏感的公司数据。他们不希望私人数据进入公共 LLM。如果敏感的客户数据被暴露,然后落入某个公共内容中,这可能会让公司倒闭。泄露公司数据很容易。如果操作不当,这可能会导致数据泄露到公共领域并造成危害。”
随着数字化转型带来的创新不断快速发展,在审计数据移动和分段方面,技术发挥着重要作用。