信息学院郑杰课题组开发新型AI模型助力抗癌药物靶点发现

发布时间2021-08-19文章来源 信息科学与技术学院作者责任编辑

信息学院郑杰课题组与合作者提出了基于知识图谱和图神经网络的新型人工智能模型KG4SL,在合成致死(synthetic lethality,简称SL)基因关系预测问题上取得突破,有望加速癌症药物靶点发现,促进AI制药技术的发展。该成果在近期召开的第29届分子生物学智能系统会议和第20届欧洲计算生物学会议(The 29th Conference on Intelligent Systems for Molecular Biology and 20th European Conference on Computational Biology,ISMB/ECCB)作为正式论文发表,题为“KG4SL: Knowledge Graph Neural Network for Synthetic Lethality Prediction in Human Cancers”,郑杰教授作口头报告。该论文已被生物信息学领域核心期刊《生物信息学》(Bioinformatics)的ISMB/ECCB 2021会议特刊收录。


期刊论文截图


复杂的生物系统通过基因相互作用的形式进行运作。合成致死是基因之间相互作用的一种关系。如果两个基因同时失活会导致细胞死亡,而只有其中一个基因失活则不会对细胞生存造成影响,那么这两个基因之间就存在“合成致死”关系。合成致死基因对是潜在的抗癌药物靶点,因为当发现肿瘤中存在特定基因失活时,那么用药物来抑制与该失活基因有合成致死关系的“队友”基因,就可以特异性地杀死癌细胞,而不危害健康细胞。但是通过湿实验的方法来筛选SL基因关系存在成本高、批次效应和脱靶等技术局限,而现有的计算预测SL的方法忽略了基因对背后共同的生物学机制。因此郑杰课题组与合作者提出了基于图神经网络的KG4SL模型,用知识图谱捕捉不同的SL基因对背后相通的生物学机制,以获得更好的预测性能和生物学解释。


图:KG4SL模型框架。模型可分为三个模块,分别是Gene-specific weighted subgraph、Aggregation和Score computation。(1) Gene-specific weighted subgraph:对给定的SL基因对从知识图谱中构造带权重子图。(2) Aggregation:对于每个SL基因对,从该子图中选择与该基因直接相连的基因节点和边关系。基于生物信息可以在所提取的子图节点之间流动的假设,聚合子图中每个基因节点的邻居节点信息从而构成该基因的特征表示。(3) Score computation:通过将sigmoid函数作用于两个基因特征表示的内积结果,得到给定SL基因对之间合成致死关系的概率。


通过在图神经网络中加入一个合适的知识图谱,KG4SL考虑了知识图谱上所存储的与基因之间相互作用的生物机制相关的信息,克服了现有方法假设每一对SL基因都是一个独立样本的局限性。KG4SL模型所使用的知识图谱来自郑杰教授团队开发的一个含有合成致死关系的综合数据库SynLethDB (http://synlethdb.sist.shanghaitech.edu.cn/v2/)。与所有基本模型相比,KG4SL模型有显著的性能提高。此外,KG4SL模型比其他三种仅依赖知识图谱或合成致死数据或只是将它们简单结合的模型有更强的辨别力。


图:SL关系可视化。TransE模型仅利用知识图谱信息,GCN模型仅利用SL交互信息,TransE+GCN模型结合了知识图谱信息和SL交互信息。图中橘色点表示SL关系,蓝色的点表示非SL关系。这些图说明KG4SL模型对SL关系和非SL关系有更强的鉴别能力。


KG4SL模型第一次将知识图谱引入到SL基因关系预测这个问题,并取得良好的效果。这说明基于图神经网络的深度学习模型,能通过结合知识和数据来更好地解决生物医药领域的复杂问题。新预测的SL基因对将帮助生物学家更快地筛选到新的抗癌药物靶点,实现用AI技术加速新药研发的进程。此外,KG4SL有望通过知识图谱来揭示SL背后的生物学机理,使深度学习模型具有更好的可解释性,促进生物学知识的发现。

此项研究工作主要由上海科技大学信息学院智能医学信息研究中心郑杰课题组完成,上海科技大学是第一完成单位。信息学院2020级硕士生王诗珂和徐凡为共同第一作者,其他学生作者包括信息学院博士生张可和硕士生汪洁,以及生命学院本科生李云洋,他们均在郑杰课题组学习和研究。新加坡南洋理工大学资深研究科学家刘勇参与了实验和理论工作。信息学院副教授郑杰和新加坡科技研究局资深科学家吴敏为共同通讯作者。

ISMB/ECCB是生物信息学领域的旗舰会议,其论文代表全球最前沿的生物信息学研究成果,评审严格,竞争激烈。在今年投稿的289篇论文里,仅有55篇被选中,接收率仅为19%。

文章链接:https://academic.oup.com/bioinformatics/article/37/Supplement_1/i418/6319703