订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
随着数据持续成为企业成功的关键,企业正在争先恐后地从现有信息中挖掘最大价值。但企业数据的规模正在以惊人的速度增长,每两年翻一番,处理这些数据的计算能力正在达到极限。
总部位于加州的 DataPelago 旨在通过“通用数据处理引擎”来解决这个问题,该引擎允许企业利用 GPU 和 FPGA(现场可编程门阵列)等加速计算元素的力量,来提升现有数据查询引擎(包括开源引擎)的性能。这使得引擎能够跨各种格式处理呈指数级增长的复杂数据量。
这家初创公司刚刚走出隐身状态,但已经声称可以将查询/作业延迟降低五倍,同时提供显著的成本效益。它还获得了 4700 万美元的融资,获得了包括 Eclipse、台湾资本、高通创投、Alter Venture Partners、Nautilus Venture Partners 和硅谷银行在内的多家风险投资公司的支持。
十多年前,结构化和半结构化数据分析是数据驱动增长的首选方案,为企业提供其业务运营状况和需要改进方面的快照。
这种方法效果很好,但技术的演变也导致了企业系统中非结构化数据的兴起——图像、PDF、音频和视频文件。最初,这些数据的规模很小,但如今,它们占所有创建信息量的 90%(远超结构化/半结构化数据),对于大型语言模型等高级企业应用至关重要。
现在,随着企业希望利用所有数据资产(包括大量非结构化数据)来满足这些用例,它们遇到了性能瓶颈,难以及时且经济高效地处理这些数据。
DataPelago 首席执行官 Rajan Goyal 表示,原因在于传统平台的计算能力有限,这些平台最初是为结构化数据和通用计算 (CPU) 而设计的。
“如今,企业在加速数据处理方面有两个选择……云服务提供商提供的开源系统作为托管服务,许可费用较低,但用户需要为云基础设施计算成本支付更多费用才能达到可接受的性能水平。另一方面,专有服务(使用开源框架构建或其他方式)可能具有更高的性能,但它们的许可费用要高得多。这两种选择都会导致客户的总拥有成本 (TCO) 较高,”他解释道。
为了解决下一代数据工作负载的性能和成本差距,Goyal 开始构建 DataPelago,这是一个统一的平台,它使用 GPU 和 FPGA 等加速计算硬件动态加速查询引擎,使它们能够处理所有类型数据的先进处理需求,而不会大幅增加 TCO。
“我们的引擎利用 GPU 的强大功能加速 Apache Spark 或 Trino 等开源查询引擎,从而将服务器数量减少 10 倍,这将导致基础设施成本和许可成本以相同的比例降低。客户看到了颠覆性的价格/性能优势,使其能够利用他们拥有的所有数据,”首席执行官指出。
DataPelago 的核心产品使用三个主要组件——DataApp、DataVM 和 DataOS。DataApp 是一个可插拔层,允许将 DataPelago 与 Apache Spark 或 Trino 等开放数据处理框架集成,在规划器和执行器节点级别对其进行扩展。
一旦框架部署完毕,用户运行查询或数据管道,无需修改,用户界面应用程序无需更改。在后端,框架的规划器将其转换为计划,然后由 DataPelago 接收。该引擎使用 Apache Gluten 等开源库将计划转换为称为 Substrait 的开放标准中间表示。该计划被发送到执行器节点,DataOS 将 IR 转换为可执行的数据流图 (DFG)。
最后,DataVM 评估 DFG 的节点,并根据可用性或成本/性能特征,动态地将它们映射到合适的计算元素——CPU、FPGA、Nvidia GPU 或 AMD GPU。通过这种方式,系统将工作负载重定向到超大规模云提供商或 GPU 云提供商提供的最合适的硬件,以最大限度地提高性能和成本效益。
虽然使用加速计算动态加速查询引擎的技术是新技术,但该公司已经声称,与现有的数据处理引擎相比,它可以将查询/作业延迟降低五倍,并将 TCO 降低两倍。
“我们正在与一家公司合作,该公司在一个工作负载上花费了 1.4 亿美元,其中 90% 的成本用于计算。我们能够将他们的总支出降低到 < 5000 万美元,”Goyal 说。
首席执行官没有透露与 DataPelago 合作的公司的总数,但他指出,该公司正在看到来自安全、制造、金融、电信、SaaS 和零售等各个行业的企业的显著增长。他补充说,现有的客户群包括三星 SDS、迈克菲和保险技术提供商 Akad Seguros 等知名企业。
“DataPelago 的引擎使我们能够通过在同一个管道上处理结构化、半结构化和非结构化数据来统一我们的 GenAI 和数据分析管道,同时将我们的成本降低 50% 以上,”Akad Seguros 的首席技术官 André Fichel 在一份声明中表示。
作为下一步,Goyal 计划在此基础上继续努力,将他们的解决方案推广到更多希望加速数据工作负载并同时提高成本效益的企业。
“DataPelago 的下一阶段增长是建立我们的市场营销团队,帮助我们管理我们已经参与的大量客户对话,并继续发展成为全球服务,”他说。