小红书App作为月活用户超3.5亿的生活兴趣社区,其业务核心围绕“社区+电商+商业化”展开,通过UGC内容驱动“种草-拔草”的业务闭环,持续提升用户规模和粘性。与此同时,日均数千亿的日志规模催生了海量的实时与离线数据需求。在Big AI Data时代,小红书的数据架构正经历显著演进,目前已基于新一代通用增量计算替换原有Lambda架构,成功将架构复杂度、资源成本、开发成本均降低1/3。本文将深入探讨小红书数据架构的演进历程,并介绍通用增量计算的定义与标准。
小红书数据框架的演进
在小红书APP中,用户可以浏览社区笔记、与朋友进行互动、观看直播,也可以在商城购买商品。这些业务都由数据强力驱动。小红书庞大的用户体量和业务复杂性,对数据平台的数据能力构成了显著挑战。
小红书业务及数据概览

目前,小红书的整体数据平台遵循业界通用的数仓标准和建模方式进行维护管理。该平台具备一系列产品型工具能力,包括自建的调度平台、运维平台、资产管理平台、治理平台和报表平台等,共同助力数据资产在企业中发挥更大价值。
数据价值的输出主要分为四类:
第一类是数据分析。例如,为高管提供报表支持,以及为一线运营及销售提供自助分析产品;
第二类是数据产品。例如,面向广告主、商家、博主及内部需求方的小红书数据平台;
第三类是数据服务。例如,为推荐、搜索、算法团队提供用户画像和特征标签等;
第四类是AI相关应用。例如,利用AI帮助用户更轻量地获取数据洞察、生成数据报告及提供经营建议等。
2024年,小红书的基础设施层完成了从AWS到阿里云的迁移,涉及数据量500PB,任务11万个,1500人参与,横跨40多个部门。此次整体迁移和改造的复杂度创下了业界记录。截至目前,小红书已有部分业务在自建云上试跑,未来将持续向混合云架构方向发展。
