科研进展
您当前的位置 :

5月8日,中国科学院上海营养与健康研究所工程实验室人工智能与数字健康部团队在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表题为“Predicting enhancer–gene links from single-cell multi-omics data by integrating prior Hi-C information”的研究成果。该研究开发了一种名为SCEG-HiC(single-cell enhancer-gene linking with prior Hi-C)的新型计算方法,将群体细胞平均染色质构象作为先验信息整合到单细胞多组学数据分析中,实现了对增强子与靶基因关系的高精度预测。

增强子是基因组中一类关键的顺式调控元件,能够远距离调控基因表达,在细胞命运决定和疾病发生发展中扮演核心角色。近年来,单细胞染色质开放测序技术(scATAC-seq)使研究人员能够在单细胞分辨率下鉴定潜在增强子。然而,如何为每个增强子准确找到其真正调控的靶基因,仍是该领域面临的重要难题。现有计算方法大多依赖增强子开放性与基因表达之间的统计相关性进行配对推断,但这种策略容易产生“虚假关联”——两个区域信号的协同变化,并不一定意味着它们之间存在真实的物理接触或调控关系。

SCEG-HiC的创新之处在于,它在单细胞数据与群体细胞染色质构象(Hi-C)信息之间架设了一座桥梁。研究团队采用加权图形套索(wglasso)机器学习框架,将基于数十种细胞类型构建的“平均Hi-C图谱”转化为“惩罚矩阵”:如果一对增强子与基因在物理空间上的接触频率较高,模型对其施加的惩罚就较小,相应的调控关系也更容易被识别。这样的设计使SCEG-HiC既能保留细胞状态特异的关联信号,又能有效滤除缺乏染色质构象支持的假阳性预测。

在涵盖人类和小鼠的10个单细胞多组学数据集上的系统基准测试中,SCEG-HiC的预测精度均显著优于现有主流单细胞模型。研究团队进一步将SCEG-HiC应用于新冠病毒感染患者的外周血单核细胞数据,证明该模型能够更可靠地重建增强子介导的转录调控网络,并揭示重症相关非编码遗传变异所指向的候选靶基因。研究所用的数据均来自公共开放数据集

SCEG-HiC支持配对的scATAC/RNA-seq数据以及单独的scATAC-seq数据输入,为系统解析复杂性状和疾病相关单细胞数据中的增强子—靶基因调控关系提供了有力工具。目前,研究团队已将SCEG-HiC作为开源R包在GitHub上发布。

中国科学院上海营养与健康研究所博士研究生梁萱为该论文第一作者,王振研究员为通讯作者。研究得到了科技部国家重点研发计划、广州国家实验室专项项目等资助,并获得了汪思佳研究员和黄涛研究员的支持与帮助。

论文链接:https://academic.oup.com/nar/article/54/9/gkag437/8672760


图:SCEG-HiC研究示意图。SCEG-HiC通过整合单细胞多组学数据与群体细胞先验Hi-C信息,实现对增强子—靶基因关联的预测。基于细胞类型特异性Hi-C数据和eQTL数据的基准测试表明,SCEG-HiC在AUPRC和早期精准率等指标上均优于现有方法。SCEG-HiC可用于构建增强子介导的转录调控网络,并有助于鉴定受增强子遗传变异影响的靶基因。


送单元:工程实验室人工智能与数字健康部、科技规划与任务处

附件: