前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
未分类

mcRigor:统计方法提升单细胞数据元细胞划分的严谨性与可靠性

NEXTECH
Last updated: 2025年10月18日 上午6:34
By NEXTECH
Share
31 Min Read
SHARE

这篇发表在《自然通讯》上的文章,由加州大学洛杉矶分校和弗雷德·哈钦森癌症研究中心博士后研究员潘柳共同撰写。潘柳是这篇关于 mcRigor 论文的第一作者。

近年来,单细胞测序技术飞速发展,为揭示细胞多样性、细胞状态动态变化以及潜在的基因调控机制提供了前所未有的机遇。除了广泛应用的单细胞RNA测序(scRNA-seq)1,2,单细胞染色质可及性测序(scATAC-seq)3,4以及转录组和染色质可及性联合分析(scMultiome)5等新模式也相继问世,使得研究人员能够从多个组学层面,以单细胞分辨率剖析细胞异质性。然而,这些技术产生的数据通常高度稀疏,这主要是由于每个细胞的测序深度有限,以及逆转录和非线性扩增过程的不完善所致。这些因素导致高表达基因占据了大部分测序容量,而低表达基因则难以被检测到6。

图1:mcRigor 论文发表情况

图1. mcRigor 论文发表。

为了缓解数据稀疏性和噪声问题,研究人员提出了“元细胞(metacell)”的概念。该方法将具有相似表达谱的细胞聚合成一个单一的代表性单元——元细胞,其表达量由组成细胞的平均表达量定义,从而增强信号并降低噪声。然而,现有的元细胞构建方法常常产生显著不同的元细胞划分结果,并且对超参数设置高度敏感,特别是对平均元细胞大小的敏感度较高7。这种缺乏一致性使得用户难以判断哪种元细胞划分更值得信赖,以及由此产生的元细胞图谱在多大程度上保留了真实的生物信号。因此,下游分析的稳健性受到影响,元细胞作为跨多种任务和组学模式的通用数据预处理框架的潜力也受到了限制。

这篇发表在《自然通讯》上的论文8,基于单细胞测序数据的两层模型,为元细胞提供了一个严谨的统计学定义:上层模型捕捉真实表达的生物变异,而下层模型则模拟了从真实表达生成测量表达的测序过程。基于此定义,研究团队开发了 mcRigor,这是一个统计学框架,旨在检测给定划分中的可疑元细胞,并从候选方法-超参数配置中选择最优的元细胞划分方法和超参数。

You Might Also Like

13种顶级RAG技术深度解析:架构、局限与优化方法
洞察AI未来:2025年十大必读论文深度解析
ROC AUC 详解:不平衡数据集下分类模型评估的入门指南
解码未来职场:德勤2025年Z世代与千禧一代报告深度洞察

mcRigor 不仅能够检测并移除可疑元细胞(其扩展版本 mcRigor 两步法 进一步将可疑元细胞拆解为单个细胞,并重新组装成更小、更可靠的元细胞),从而提高基因共表达和增强子-基因调控等下游分析的可靠性,还能够实现数据驱动地为每个数据集选择最合适的元细胞划分策略。由于其灵活的兼容性,mcRigor 可以轻松应用于单细胞转录组、染色质可及性以及多组学数据(图2)。此外,mcRigor 为评估不同元细胞构建方法提供了一个统一的评价标准,为研究人员的方法选择提供了可靠的指导。

在这篇论文的第一部分8中,研究人员介绍了 mcRigor 检测可疑元细胞的方法。具体来说,mcRigor 使用基于特征相关性的统计量 mcDiv 来量化每个元细胞的内部异质性,该统计量衡量了特征间相关性与独立性的偏差。其基本原理是,如果所有成员细胞共享相同的真实表达水平,并且它们之间观察到的变异纯粹来自测量过程,那么这些特征应该是近似独立的。mcRigor 随后使用新颖的双重置换(double permutation)程序构建 mcDiv 的零分布(null distribution),并将显著偏离该零分布的元细胞识别为可疑元细胞(图2a)。

在半模拟和真实的 PBMC 数据集中,mcRigor 都能准确区分可信元细胞和可疑元细胞(图2b–c)。研究进一步展示了 mcRigor 在提高多个下游分析可靠性方面的有效性。在细胞系数据分析中,移除可疑元细胞显著提高了细胞周期标记基因的信噪比(图2d)。在 COVID-19 与健康对照数据分析中,mcRigor 消除了由可疑元细胞引起的虚假基因相关性,并揭示了适应性免疫反应模块内更强的共表达(图2e)。在 scMultiome 数据分析中,mcRigor 增强了增强子-基因关联的可检测性,过滤掉支持较弱的假阳性,同时保留了与单细胞水平观察结果一致的信号(图2f)。

图2:mcRigor 检测可疑元细胞并纠正 scRNA-seq 和多组学数据下游分析。a,mcRigor 可疑元细胞检测方法示意图。b,mcRigor 在半合成数据上有效评估 MetaCell 方法划分的元细胞异质性并检测可疑元细胞。c,mcRigor 识别的可疑元细胞表现出内部异质性,可能偶尔出现异常值,而可信元细胞保持内部同质。d,mcRigor 增强了细胞系中细胞周期标记基因的表达。e,mcRigor 揭示了 COVID-19 样本(底部一行)中适应性免疫反应基因模块(黄色突出显示)的共表达比健康对照(顶部一行)更丰富。f,将 mcRigor 应用于 SEACells 论文的原始元细胞划分,增强了基因调控推断(左)并产生了可靠的发现(右)。

图2. mcRigor 检测可疑元细胞并纠正 scRNA-seq 和多组学(RNA+ATAC)数据的下游分析。a, mcRigor 可疑元细胞检测方法的示意图。b, mcRigor 在半合成数据上有效评估 MetaCell 方法划分的元细胞异质性并检测可疑元细胞。c, mcRigor 识别的可疑元细胞表现出内部异质性,可能偶尔出现异常值,而可信元细胞保持内部同质。d, mcRigor 增强了细胞系中细胞周期标记基因的表达。e, mcRigor 揭示了 COVID-19 样本(底部一行)中适应性免疫反应基因模块(黄色突出显示)的共表达比健康对照(顶部一行)更丰富。f, 将 mcRigor 应用于 SEACells 论文的原始元细胞划分,增强了基因调控推断(左)并产生了可靠的发现(右)。

图3:mcRigor 优化各种单细胞数据分析的元细胞方法和超参数选择。a,mcRigor 优化元细胞划分方法的示意图,使用 Score 作为优化标准来平衡 DubRate 和 ZeroRate,以半合成数据上 MetaCell 划分的优化为例。b,折线图显示了 MetaCell、SEACells 和 SuperCell 三种方法在不同粒度级别(y)下生成的元细胞划分中零比例。优化的元细胞划分(三角形)与 smRNA FISH 数据(红线)中观察到的零比例非常吻合。c,mcRigor 优化了差异基因表达分析的元细胞方法和超参数选择。在 (b) 和 (c) 中,彩色三角形表示 mcRigor 为三种方法选择的最佳 y 值。d,与 Zman-seq 研究的原始元细胞划分相比,mcRigor 优化的元细胞划分更好地揭示了免疫细胞的时间轨迹。

图3. mcRigor 优化各种单细胞数据分析的元细胞方法和超参数选择。a, mcRigor 优化元细胞划分方法的示意图,其中使用 Score 作为优化标准来平衡 DubRate 和 ZeroRate,并以半合成数据上 MetaCell 划分的优化为例进行说明。b, 折线图显示了 MetaCell、SEACells 和 SuperCell 三种方法在不同粒度级别(y)下生成的元细胞划分中零比例。优化的元细胞划分(三角形)与 smRNA FISH 数据(红线)中观察到的零比例非常吻合。c, mcRigor 优化了差异基因表达分析的元细胞方法和超参数选择。在 (b) 和 (c) 中,彩色三角形表示 mcRigor 为三种方法选择的最佳 y 值。d, 与 Zman-seq 研究9的原始元细胞划分相比,mcRigor 优化的元细胞划分更好地揭示了免疫细胞的时间轨迹。

在这篇论文的第二部分8中,研究人员介绍了 mcRigor 评估元细胞划分和优化超参数的方法。通过平衡元细胞的可靠性与数据稀疏性,mcRigor 为每个候选划分分配一个总体评估分数,并自动从所有候选方案中选择最优的方法-参数配置,从而将经验性的方法和参数调整过程转变为数据驱动的自动化决策(图3a)。

这项优化功能在各种下游任务中展现了其广泛的实用性。例如,mcRigor 优化后的元细胞的零比例与 smRNA-FISH 测量的金标准零比例紧密匹配,这表明它能够区分技术性零值和生物学性零值(图3b)。在差异表达分析中,基于 mcRigor 优化元细胞的结果与批量 RNA-seq 数据获得的结果更为一致,这表明其可靠性有所提高(图3c)。在时间序列数据中,mcRigor 优化后的元细胞增强了轨迹分辨率,并揭示了与实验证据一致的更清晰的基因表达动态(图3d)。

mcRigor R 软件包和在线教程可在 https://jsb-ucla.github.io/mcRigor/ 获取。

完整论文可在 https://www.nature.com/articles/s41467-025-63626-5 查看。

参考文献:

  1. Picelli, S. et al. Full-length RNA-seq from single cells using Smart-seq2. Nat. Protoc.9, 171–181 (2014).

  2. Macosko, E. Z. et al. Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell161, 1202–1214 (2015).

  3. Buenrostro, J. D. et al. Single-cell chromatin accessibility reveals principles of regulatory variation. Nature523, 486–490 (2015).

  4. Cusanovich, D. A. et al. Multiplex single cell profiling of chromatin accessibility by combinatorial cellular indexing. Science348, 910–914 (2015).

  5. Cao, J. et al. Joint profiling of chromatin accessibility and gene expression in thousands of single cells. Science361, 1380–1385 (2018).

  6. Jiang, R., Sun, T., Song, D. & Li, J. J. Statistics or biology: the zero-inflation controversy about scRNA-seq data. Genome Biol.23, 31 (2022).

  7. Bilous, M., Hérault, L., Gabriel, A. A., Teleman, M. & Gfeller, D. Building and analyzing metacells in single-cell genomics data. Mol. Syst. Biol.20, 744–766 (2024).

  8. Liu, P. & Li, J. J. mcRigor: a statistical method to enhance the rigor of metacell partitioning in single-cell data analysis. bioRxiv (2024) doi:10.1101/2024.10.30.621093.

TAGGED:mcRigor单细胞数据机器学习生物信息学
Share This Article
Email Copy Link Print
Previous Article SKILL.md文件结构示意图:YAML前置元数据与Markdown正文指令 Claude Skills:知识工程赋能AI Agent,实现通用模型向专业‘行家里手’的范式转变
Next Article DeepResearch模型在科研场景中的应用示意图 阿里开源通义DeepResearch:科研智能体训练全流程深度解析
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

消费者画像
未分类

2024全球葡萄酒产业深度解析:产量创60年新低,2025三大趋势展望

2025年11月27日
预测分布函数公式
大模型与工程化

基础模型:如何赋能表格数据,应对企业级生产挑战?

2025年10月2日
未分类

人脸识别支付公司PopID完成融资 PayPal、Visa参投

2025年6月10日
插图:结论
未分类

强化学习进阶:时序差分学习(TD)深度解析与高效探索策略——Q-learning、Dyna-Q、Dyna-Q+算法实战对比

2025年10月3日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up