mcRigor：统计方法提升单细胞数据元细胞划分的严谨性与可靠性

这篇发表在《自然通讯》上的文章，由加州大学洛杉矶分校和弗雷德·哈钦森癌症研究中心博士后研究员潘柳共同撰写。潘柳是这篇关于 mcRigor 论文的第一作者。

近年来，单细胞测序技术飞速发展，为揭示细胞多样性、细胞状态动态变化以及潜在的基因调控机制提供了前所未有的机遇。除了广泛应用的单细胞RNA测序（scRNA-seq）1,2，单细胞染色质可及性测序（scATAC-seq）3,4以及转录组和染色质可及性联合分析（scMultiome）5等新模式也相继问世，使得研究人员能够从多个组学层面，以单细胞分辨率剖析细胞异质性。然而，这些技术产生的数据通常高度稀疏，这主要是由于每个细胞的测序深度有限，以及逆转录和非线性扩增过程的不完善所致。这些因素导致高表达基因占据了大部分测序容量，而低表达基因则难以被检测到6。

图1：mcRigor 论文发表情况

图1. mcRigor 论文发表。

为了缓解数据稀疏性和噪声问题，研究人员提出了“元细胞（metacell）”的概念。该方法将具有相似表达谱的细胞聚合成一个单一的代表性单元——元细胞，其表达量由组成细胞的平均表达量定义，从而增强信号并降低噪声。然而，现有的元细胞构建方法常常产生显著不同的元细胞划分结果，并且对超参数设置高度敏感，特别是对平均元细胞大小的敏感度较高7。这种缺乏一致性使得用户难以判断哪种元细胞划分更值得信赖，以及由此产生的元细胞图谱在多大程度上保留了真实的生物信号。因此，下游分析的稳健性受到影响，元细胞作为跨多种任务和组学模式的通用数据预处理框架的潜力也受到了限制。

这篇发表在《自然通讯》上的论文8，基于单细胞测序数据的两层模型，为元细胞提供了一个严谨的统计学定义：上层模型捕捉真实表达的生物变异，而下层模型则模拟了从真实表达生成测量表达的测序过程。基于此定义，研究团队开发了 mcRigor，这是一个统计学框架，旨在检测给定划分中的可疑元细胞，并从候选方法-超参数配置中选择最优的元细胞划分方法和超参数。

mcRigor 不仅能够检测并移除可疑元细胞（其扩展版本 mcRigor 两步法 进一步将可疑元细胞拆解为单个细胞，并重新组装成更小、更可靠的元细胞），从而提高基因共表达和增强子-基因调控等下游分析的可靠性，还能够实现数据驱动地为每个数据集选择最合适的元细胞划分策略。由于其灵活的兼容性，mcRigor 可以轻松应用于单细胞转录组、染色质可及性以及多组学数据（图2）。此外，mcRigor 为评估不同元细胞构建方法提供了一个统一的评价标准，为研究人员的方法选择提供了可靠的指导。

在这篇论文的第一部分8中，研究人员介绍了 mcRigor 检测可疑元细胞的方法。具体来说，mcRigor 使用基于特征相关性的统计量 mcDiv 来量化每个元细胞的内部异质性，该统计量衡量了特征间相关性与独立性的偏差。其基本原理是，如果所有成员细胞共享相同的真实表达水平，并且它们之间观察到的变异纯粹来自测量过程，那么这些特征应该是近似独立的。mcRigor 随后使用新颖的双重置换（double permutation）程序构建 mcDiv 的零分布（null distribution），并将显著偏离该零分布的元细胞识别为可疑元细胞（图2a）。

在半模拟和真实的 PBMC 数据集中，mcRigor 都能准确区分可信元细胞和可疑元细胞（图2b–c）。研究进一步展示了 mcRigor 在提高多个下游分析可靠性方面的有效性。在细胞系数据分析中，移除可疑元细胞显著提高了细胞周期标记基因的信噪比（图2d）。在 COVID-19 与健康对照数据分析中，mcRigor 消除了由可疑元细胞引起的虚假基因相关性，并揭示了适应性免疫反应模块内更强的共表达（图2e）。在 scMultiome 数据分析中，mcRigor 增强了增强子-基因关联的可检测性，过滤掉支持较弱的假阳性，同时保留了与单细胞水平观察结果一致的信号（图2f）。

图2：mcRigor 检测可疑元细胞并纠正 scRNA-seq 和多组学数据下游分析。a，mcRigor 可疑元细胞检测方法示意图。b，mcRigor 在半合成数据上有效评估 MetaCell 方法划分的元细胞异质性并检测可疑元细胞。c，mcRigor 识别的可疑元细胞表现出内部异质性，可能偶尔出现异常值，而可信元细胞保持内部同质。d，mcRigor 增强了细胞系中细胞周期标记基因的表达。e，mcRigor 揭示了 COVID-19 样本（底部一行）中适应性免疫反应基因模块（黄色突出显示）的共表达比健康对照（顶部一行）更丰富。f，将 mcRigor 应用于 SEACells 论文的原始元细胞划分，增强了基因调控推断（左）并产生了可靠的发现（右）。

图2. mcRigor 检测可疑元细胞并纠正 scRNA-seq 和多组学（RNA+ATAC）数据的下游分析。a， mcRigor 可疑元细胞检测方法的示意图。b， mcRigor 在半合成数据上有效评估 MetaCell 方法划分的元细胞异质性并检测可疑元细胞。c， mcRigor 识别的可疑元细胞表现出内部异质性，可能偶尔出现异常值，而可信元细胞保持内部同质。d， mcRigor 增强了细胞系中细胞周期标记基因的表达。e， mcRigor 揭示了 COVID-19 样本（底部一行）中适应性免疫反应基因模块（黄色突出显示）的共表达比健康对照（顶部一行）更丰富。f，将 mcRigor 应用于 SEACells 论文的原始元细胞划分，增强了基因调控推断（左）并产生了可靠的发现（右）。

图3：mcRigor 优化各种单细胞数据分析的元细胞方法和超参数选择。a，mcRigor 优化元细胞划分方法的示意图，使用 Score 作为优化标准来平衡 DubRate 和 ZeroRate，以半合成数据上 MetaCell 划分的优化为例。b，折线图显示了 MetaCell、SEACells 和 SuperCell 三种方法在不同粒度级别（y）下生成的元细胞划分中零比例。优化的元细胞划分（三角形）与 smRNA FISH 数据（红线）中观察到的零比例非常吻合。c，mcRigor 优化了差异基因表达分析的元细胞方法和超参数选择。在 (b) 和 (c) 中，彩色三角形表示 mcRigor 为三种方法选择的最佳 y 值。d，与 Zman-seq 研究的原始元细胞划分相比，mcRigor 优化的元细胞划分更好地揭示了免疫细胞的时间轨迹。

图3. mcRigor 优化各种单细胞数据分析的元细胞方法和超参数选择。a， mcRigor 优化元细胞划分方法的示意图，其中使用 Score 作为优化标准来平衡 DubRate 和 ZeroRate，并以半合成数据上 MetaCell 划分的优化为例进行说明。b，折线图显示了 MetaCell、SEACells 和 SuperCell 三种方法在不同粒度级别（y）下生成的元细胞划分中零比例。优化的元细胞划分（三角形）与 smRNA FISH 数据（红线）中观察到的零比例非常吻合。c， mcRigor 优化了差异基因表达分析的元细胞方法和超参数选择。在 (b) 和 (c) 中，彩色三角形表示 mcRigor 为三种方法选择的最佳 y 值。d，与 Zman-seq 研究9的原始元细胞划分相比，mcRigor 优化的元细胞划分更好地揭示了免疫细胞的时间轨迹。

在这篇论文的第二部分8中，研究人员介绍了 mcRigor 评估元细胞划分和优化超参数的方法。通过平衡元细胞的可靠性与数据稀疏性，mcRigor 为每个候选划分分配一个总体评估分数，并自动从所有候选方案中选择最优的方法-参数配置，从而将经验性的方法和参数调整过程转变为数据驱动的自动化决策（图3a）。

这项优化功能在各种下游任务中展现了其广泛的实用性。例如，mcRigor 优化后的元细胞的零比例与 smRNA-FISH 测量的金标准零比例紧密匹配，这表明它能够区分技术性零值和生物学性零值（图3b）。在差异表达分析中，基于 mcRigor 优化元细胞的结果与批量 RNA-seq 数据获得的结果更为一致，这表明其可靠性有所提高（图3c）。在时间序列数据中，mcRigor 优化后的元细胞增强了轨迹分辨率，并揭示了与实验证据一致的更清晰的基因表达动态（图3d）。

mcRigor R 软件包和在线教程可在 https://jsb-ucla.github.io/mcRigor/ 获取。

完整论文可在 https://www.nature.com/articles/s41467-025-63626-5 查看。

参考文献：