数据驱动:印第安纳步行者队如何利用 AI 提升球迷体验
在篮球世界,数据至关重要,但对于印第安纳步行者体育和娱乐公司 (PS&E) 而言,球迷数据同样宝贵。这家拥有印第安纳步行者队 (NBA)、印第安纳狂热队 (WNBA) 和印第安纳疯狂蚂蚁队 (NBA G 联盟) 的母公司,曾将大量数据投入到一个价值 10 万美元的机器学习 (ML) 平台中,用于生成关于票价和门票需求等因素的预测模型。然而,洞察力的获取速度却无法满足需求。
数据工程和战略经理 Jared Chavez 决心改变现状,在一年半前将平台迁移到 Salesforce 上的 Databricks。如今,他的团队以极低的计算成本,仅花费每年 8 美元,就能完成相同的预测项目,并获得对球迷行为的宝贵洞察。这种惊人的成本降低,主要归功于 Chavez 的团队将 ML 计算量降至极低水平。
除了三支篮球队外,总部位于印第安纳波利斯的 PS&E 还运营着步行者电竞业务,举办 NCAA 男子篮球锦标赛 (March Madness) 比赛,并通过 Gainbridge 球场 (演唱会、喜剧表演、牛仔竞技表演和其他体育赛事) 运营着繁忙的 300 多天活动业务。此外,该公司上个月宣布计划建造一个价值 7800 万美元的印第安纳狂热队运动表现中心,该中心将通过天桥连接到球场和停车场 (预计于 2027 年开放)。
所有这些都产生了令人难以置信的数据量,以及数据蔓延。从数据基础设施的角度来看,Chavez 指出,直到两年前,该组织还在 Microsoft Azure Synapse Analytics 上托管了两个完全独立的仓库。业务中的不同团队都使用自己的分析形式,工具和技能水平也差异很大。
他解释说,虽然 Azure Synapse 在连接到外部平台方面做得很好,但对于 PS&E 规模的组织来说,成本过高。此外,将公司的 ML 平台与 Microsoft Azure Data Studio 集成会导致碎片化。
为了解决这些问题,Chavez 在 2023 年 8 月切换到 Databricks AutoML 和 Databricks 机器学习工作区。最初的重点是配置、训练和部署围绕票价和比赛需求的模型。

Chavez 指出,技术和非技术用户都立即发现这些平台很有用,并且它们迅速加快了 ML 过程 (并降低了成本)。
“它极大地提高了营销团队的响应时间,因为他们不需要知道如何编码,”Chavez 说。“对他们来说,一切都是按钮,所有这些数据都作为统一记录返回到 Databricks。”
此外,他的团队将公司 60 多个系统整合到 Salesforce 数据云中。现在,他报告说,他们的存储数据量增加了 440 倍,生产中的数据源增加了 8 倍。
PS&E 现在的运营成本仅为之前年度运营支出 (OPEX) 的 2% 以下。“仅仅在运营方面,我们就节省了数十万美元,”Chavez 说。“我们将这些资金重新投资到客户数据丰富中。我们为不仅仅是我的团队,而是公司周围的分析部门重新投资了更好的工具。”
他的团队是如何将计算量降低到如此低的水平的?Chavez 解释说,Databricks 不断改进集群配置,增强了与模式的连接选项,并将模型输出集成回 PS&E 的数据表中。强大的 ML 引擎“不断丰富、细化、合并和预测” PS&E 在每个系统和收入流中的客户记录。
这使得每次迭代都能获得更明智的预测,事实上,Chavez 报告说,偶尔的 AutoML 模型有时可以直接投入生产,而无需他的团队进行任何进一步的调整。
“说实话,这只是知道输入数据的规模,以及训练大约需要多长时间,”Chavez 说。他补充道:“它是在你可能运行的最小集群规模上,它可能只是一个内存优化集群,但只是对 Apache Spark 非常了解,并且知道我们可以以最佳方式存储和读取数据的方向。”
Chavez 的团队使用数据、AI 和 ML 的一种方式是为季票套餐进行倾向评分。正如他所说:“我们销售了数量惊人的季票套餐。”
目标是确定哪些客户特征会影响他们选择的位置。Chavez 解释说,他的团队正在对他们存档的地址进行地理定位,以找出人口统计、收入水平和旅行距离之间的相关性。他们还在分析用户在零售、餐饮、移动应用程序参与度以及他们可能在 PS&E 校园参加的其他活动中的购买历史。
此外,他们还从 Stubhub、Seat Geek 和 Ticketmaster 之外的其他供应商那里获取数据,以评估价格点并确定库存的销售情况。Chavez 解释说,所有这些都可以与他们对特定客户的了解结合起来,以确定他们将坐在哪里。
有了这些数据,他们就可以例如将特定客户从 201 区升级到 101 区中场。Chavez 说:“现在,我们不仅能够转售他在上层看台的座位,我们还可以使用相同的特征,在季中使用相同的座位为另一个人出售更小的套餐。”
同样,数据可以用来增强赞助关系,赞助关系对任何体育特许经营权都至关重要。
“当然,他们希望与与他们重叠的组织合作,”Chavez 说。“那么,我们能否更好地丰富?我们能否更好地预测?我们能否进行自定义细分?”
理想情况下,目标是创建一个界面,任何用户都可以提出以下问题:“给我一个 20 多岁到 30 多岁,有可支配收入的步行者球迷群体。”更进一步:“寻找那些年收入超过 10 万美元,并且对豪华汽车感兴趣的人。”然后,该界面可以返回与赞助商数据重叠的百分比。
“当我们的合作伙伴团队试图达成这些交易时,他们可以按需提取信息,而无需依赖分析团队为他们完成这项工作,”Chavez 说。
为了进一步支持这一目标,他的团队正在寻求建立一个数据安全沙箱,或一个允许共享敏感数据的安全环境。这对于赞助商以及与其他球队和 NCAA (总部位于印第安纳波利斯) 的合作尤其有用。
“我们现在的首要任务是响应时间,无论是面向客户还是内部,”Chavez 说。“我们能否大幅减少使用 AI 来切分信息和对其进行分类所需的知识?”
Chavez 团队的另一个关注领域是检查人们在 PS&E 校园 (包括一个三层球场和一个户外广场) 的任何时间点的位置。Chavez 解释说,通过 WiFi 接入点,他们的整个网络基础设施都具备数据捕获功能。
“当你走进球场时,即使你没有登录,你也会 ping 所有的接入点,因为你的手机正在检查 WiFi,”他说。“我可以看到你的移动轨迹。我不知道你是谁,但我可以看到你的移动轨迹。”
这最终可以帮助人们在球场周围移动——例如,如果有人想买椒盐卷饼并正在寻找一个售货亭——并帮助他的团队确定在哪里放置食品和商品售货亭。
同样,位置数据可以帮助确定标牌的最佳位置,Chavez 解释说。确定标牌展示次数的一种有趣方法是在相当于平均球迷身高的地方放置视觉梯度。
“然后让我们计算一下,在他们周围的人数情况下,有人在经过时看到它的可能性有多大,”Chavez 说。“所以我可以告诉我的赞助商,你获得了 5000 次展示,其中 1200 次展示效果很好。”
同样,当球迷坐在座位上时,他们周围都是标牌和数字显示屏。位置数据可以帮助根据他们坐姿的角度确定展示的质量 (和数量)。正如 Chavez 指出:“如果这个广告在第三节只在屏幕上显示了 10 秒,谁会看到它?”
一旦 PS&E 拥有足够的位置数据来帮助回答这些类型的问题,他的团队计划与印第安纳大学的 VR 实验室合作,对整个校园进行建模。“然后,我们只需要一个非常有趣的沙盒,可以在里面跑来跑去,回答所有这些困扰我两年的 3D 空间问题,”Chavez 说。