科研进展
您当前的位置 :

  2022年1月20日,中国科学院上海营养与健康研究所李海鹏研究组联合其他团队,在人类遗传学领域的国际重要学术期刊Human Genetics在线发表了题为“Fine human genetic map based on UK10K data set”的研究论文。遗传重组是生命进化的基础,在有性生物形成配子的过程中,来自父方和母方的染色体相互交换遗传物质,从而极大地增加了相邻基因间不同等位基因的组合,丰富了遗传多样性。精确度量基因组不同区域的遗传重组率,始终是生物学研究的一个热点问题。精确的遗传重组图谱对研究遗传重组的发生机制,杂交育种,准确定位致病突变和某一性状的决定基因,均是非常重要的。

  遗传重组率估值的精确度,与数据中所囊括的遗传重组次数成正比,如果数据中囊括了越多的遗传重组事件,则遗传重组率估值越精确,反之亦然。这一原则,无论是基于家系或单精子测序的研究,还是基于群体遗传数据的研究,均是成立的。基于群体遗传数据的分析,局限于已有的分析方法,很难运用来分析大样本。在这一研究中,研究者扩展了前期开发的机器学习方法,运用新开发的FastEPRR 2.0分析了公开的UK10K共3,781个非相关个体(n=7,562个基因组)测序数据,基于Out-of-Africa群体历史模型,准确估计了遗传重组率,构建了精确的遗传重组图谱。总体上看,少数已知的遗传重组热点在UK10K遗传图谱中依然存在,但在UK10K遗传图谱中,遗传重组率估值波动较为平缓,遗传重组异质性较低(图1)。为了探究样本大小对估值的影响,研究者从UK10K数据中随机选取了2,000、400和200个基因组测序数据,分析结果显示,随着样本量的降低,遗传重组率的估值波动加大。上述结论并不依赖于分析时所用的群体历史模型,研究者在使用群体数量恒定模型中也观察到了同样的现象。这一新的研究成果不但为学术界提供了精确的人类遗传重组图谱,并且发现遗传重组在基因组上的分布可能要比目前预期的更加均匀。正如一个评审人所说,目前对遗传重组的研究,整个学术界倾向于发现越来越多的遗传重组热点,但是这篇文章却指出了另一可能。

  理论群体遗传学领域有着极其完善的数学基础,与机器学习中的黑盒子概念截然相反。但是研究者在2008年初,已经准确预见到了有监督的机器学习对群体遗传学的促进作用,因此在2011年与合作者一起首次将有监督的机器学习引入了群体遗传学(Genetics)、并在2013年(Genetics)、2016年(G3)持续发展这一新范式。虽然有监督的机器学习在某些方面做得比极大似然法、贝叶斯等方法更好,但是这一新范式究竟能否为进化生物学领域带来新发现,依然是未知的。研究者的研究结果表明,新范式带来了新发现,同时也正面回应了领域中某些质疑意见。

  中国科学院上海营养与健康研究所李海鹏研究员和华东师范大学的潘逸萱副教授为该论文的共同通讯作者。郝子谦博士和杜朋元博士为共同第一作者。该课题得到了国家自然科学基金、中国科学院先导项目、科技部国家重点研发计划和中科院上海营养与健康研究所的支持。

  PubMed链接:https://pubmed.ncbi.nlm.nih.gov/35048190

  全文下载链接:https://rdcu.be/cFkND

  UK10K链接:https://www.uk10k.org


图1、各个遗传重组图谱中遗传重组异质性的统计。如果遗传重组在基因组中均匀分布,此时将不存在任何遗传重组异质性,并且对应曲线为对角线。如果基因组中遗传重组异质性越高,则有更多的遗传重组热点,对应曲线越弯曲。

附件: