综合新闻
您当前的位置 :

  10月31日,在第三届“先导杯”计算应用大奖赛全国总决赛中,由来自中科院上海营养与健康研究所的李杰夫、周翰文和胡玥以及来自中科苏州智能计算技术研究院的姚睿捷共同组成的AI4Life团队,将“利用无监督学习方法探索癌症发生的分子机理”作为参赛项目,获得了AI for Science赛道全国三等奖(https://cas-pra.sugon.com/sugon/newsugon/index5.html)。本届比赛共有来自中科院、北京大学、清华大学、复旦大学等机构的48支团队激烈角逐,竞争7个赛道的奖项。


团队风采:李杰夫,周翰文,姚睿捷,胡玥(从左到右)

  以癌症为代表的复杂疾病是对人类健康的主要威胁。复杂疾病具有潜在患者庞大,机制不明确,缺乏根治的干预手段等诸多特点,且目前已经呈现出发病年轻化的趋势,是目前生物医学领域的重点问题。基因测序技术可以为复杂疾病提供分子层面的信息,但是面临数据规模增长过快,现有计算体系难以处理的瓶颈,同时由于生物体系内在的复杂性,需要利用无监督学习系统建立不依赖人类已有知识的新的分子规律发现模式。

  AI4Life团队使用基于异构计算的转录组定量算法Paean对癌症样本中基因表达和可变剪接事件进行定量,Paean分析单个样本的时间在20秒左右,在多卡条件下可以在1天的时间内完成万级别癌症样本的转录组分析工作。为了探索复杂疾病分子机理,AI4Life团队基于自编码器(Autoencoder)与向量量化(vector quantization)的算法设计了通用无监督学习模型DAO(Deep AutOencoder Clustering)。AI4Life团队使用DAO模型对样本量近一万、特征维度超过七万的泛癌转录组数据集进行了聚类分析,基于转录组特征提出了潜在泛癌分类系统,发现了癌症不同亚型之间病理特征、分子机制等表型存在诸多差异,并在独立数据集上验证了关键结论。


分析流程示意图

  在工程技术方面,AI4Life团队将模型部署在异构超算集群上,实现了面向海量人群测序样本的复杂疾病自主学习。其中,超算集群硬件系统基于曙光超算平台和海光DCU,深度学习框架采用百度PaddlePaddle,实现了多机多卡的分布式学习,大幅提升了数据整合的效率和能效。

  本项目构建的分析系统可以在单日内完成万级别癌症数据集合的整合理解分析,日后随着数据的持续积累,该系统可以实现自我更新、持续学习,将发现更多对精准医学具有应用价值的分子特征,并将规律发现和分子分型的对象由癌症拓展到包括糖尿病、心血管疾病、痛风等其他复杂疾病。

  本届先导杯由企业、产业联盟、高校共创,形成了“产学研用”一体化的合作方式,吸引了国内外近千名选手积极报名,参赛队伍从学生群体、科研人员,扩展到金融、半导体、通信等更多领域。

  本工作由中科院上海营养与健康研究所王泽峰老师,张国庆老师和中科苏州智能计算技术研究院张佩珩老师联合指导。

附件: