订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
随着企业持续加大对高级分析和大型语言模型 (LLM) 的投入,图技术已成为构建数据堆栈最受欢迎的方法之一。它使用户能够理解数据集中复杂的关联关系,而这些关系在传统的关联数据库中往往并不明显。
然而,在传统关联数据库旁边维护和查询图数据库是一件相当麻烦(而且昂贵)的事情。今天,由前 Google 和 LinkedIn 员工创办的旧金山初创公司 PuppyGraph 筹集了 500 万美元,旨在通过全球首个也是唯一一个零 ETL 查询引擎来解决这一差距。该引擎使用户能够将现有的关联数据作为统一的图进行查询,而无需单独的图数据库和漫长的提取-转换-加载 (ETL) 流程。
该引擎于 2024 年 3 月推出,目前已被多家企业用于简化数据分析。仅其永久免费的开发者版就见证了每月 70% 的下载量增长。
图数据库架构类似于在白板上进行草图绘制,将所有信息存储在节点(代表实体、人员和概念)中,并附带相关的上下文和它们之间的连接。使用这种图结构,用户可以识别传统关联数据库(通过 SQL 查询)中可能不容易发现的复杂模式和关系,并部署算法以快速启用用例,例如 AI/ML、欺诈检测、客户旅程映射和网络风险管理。
在当前的方案中,采用图技术的唯一方法是设置一个独立的原生图数据库,并使其与源数据库保持同步。这项任务听起来很简单,但实际上非常复杂,团队必须设置复杂且资源密集型的 ETL 管道,将他们的数据集迁移到图存储中。这很容易花费数百万美元,并需要数月时间,从而阻止用户运行关键的业务查询。
更不用说,一旦数据库设置完毕,他们还必须持续管理它,这会进一步增加成本,并从长远来看造成可扩展性问题。
为了解决这些差距,前 Google 和 LinkedIn 员工刘伟茂、黄磊和徐丹峰走到一起,创办了 PuppyGraph。他们的想法是为团队提供一种方法,让他们能够将现有的关联数据库和数据湖作为图进行查询,而无需数据迁移。
这样,与 SQL 查询分析相同的数据可以作为图进行分析,从而更快地获取洞察。这对于数据与多级关系深度关联的情况尤其有用,例如供应链或网络安全。
“级别越深,传统 SQL 查询中的查询就越复杂。这是因为每个额外的级别都需要额外的表连接操作,这会加剧复杂性,并可能大幅降低查询性能……相比之下,图查询更有效地处理这些多级关系。它们旨在使用通过图的路径快速遍历这些连接,而与连接的深度无关,”加入 PuppyGraph 创始团队的吴振妮告诉 VentureBeat。
吴说,PuppyGraph 完全消除了对大量 ETL 设置的需求,使“部署到查询”只需大约 10 分钟。用户只需将工具连接到他们选择的数据源即可。完成此操作后,它会自动创建图模式,并以图模型查询表。此外,该引擎的分布式设计使其能够处理极其庞大的数据集和复杂的跨跳查询。
它可以连接到所有主流数据湖,包括 Google BigQuery 和 Databricks,以运行加速的图分析,同时将成本控制在较低水平。
“存储和计算架构的分离意味着低成本是 PuppyGraph 的一大优势。由于引擎直接从用户的现有数据湖/仓库查询数据,因此没有存储成本。它提供了根据需要扩展计算资源的灵活性,允许调整以有效地处理波动的工作负载,而不会冒资源争用或性能下降的风险,”吴补充道。
虽然该公司成立不到一年,但它已经见证了与多家企业的成功,包括 Coinbase、Clarivate、Dawn Capital 和 Prevelant AI。
在一个案例中,一家企业从传统的图数据库系统迁移到 PuppyGraph,并成功将其总拥有成本降低了 80% 以上。一家领先的金融交易平台能够在不到 3 秒的时间内完成大约 10 亿条边上账户 A 和账户 B 之间的 5 跳路径查询。
在 PuppyGraph 出现之前,他们自建的基于 SQL 的解决方案甚至无法查询超过 3 跳的查询,并且存在批处理超时问题。
凭借这笔资金,该公司计划加快产品开发,扩大团队规模,并通过将零 ETL 图查询引擎推广到全球更多组织,扩大其市场影响力。
根据 Gartner 的预测,到 2025 年,图技术市场规模将达到 32 亿美元,复合年增长率为 28.1%。该领域的其他参与者包括 Neo4j、AWS Neptune、Aerospike 和 ArrangoDB。