子科生物报道:2023年7月28日,中国医学科学院药物研究所汪小涧课题组与合作团队在生物信息学领域国际期刊Briefings in Bioinformatics《生物信息学简报》发表题为“CMGN: a conditional molecular generation net to design target-specific molecules with desired properties”(CMGN:一个可用于条件分子生成的药物设计方法)的研究论文,报道了双向自回归转换器的条件分子生成模型应用于药物发现的研究。
生成式人工智能(Artificial Intelligence Generated Content,AIGC)是目前人工智能研究与应用的重点方向。课题组采用“预训练+微调”的训练模式建立CMGN模型,基于大规模数据集的预训练开展分子生成规则学习,在特定任务的小数据集上做迁移学习,以适应不同的下游任务。CMGN采用条件分子生成训练策略,训练模型学习分子片段和分子性质信息进而生成完整分子结构,通过输入特定的分子片段引导模型具备结构改造与优化的能力。为了评估模型的条件分子生成能力,CMGN在包含5000万分子的数据集上进行预训练,评估结果显示,该模型能够结合分子片段和分子性质信息生成分子,分子回复率达到85.74%,且显示了基于片段的分子多性质优化能力。课题组进一步应用该模型开展布鲁顿酪氨酸激酶(BTK)抑制剂的分子设计,发现了具有较好活性的先导化合物,具有良好的开发前景。这一通用的模型框架也可应用于碳谱的结构解析研究,该研究在Analytical Chemistry《分析化学》期刊以封底文章发表,并应邀在期刊的perspective(观点)栏目撰写综述。
图1. CMGN与传统药物设计对比,及其通过迁移学习及性质调节解决分子逆问题的应用策略
图2. (左)GMGNet模型基于13C NMR结构解析的工作流程;(右)AI在四大光谱中的应用
药物所汪小涧研究员,碳硅智慧公司邓亚峰博士为本论文的共同通讯作者。药物所杨敏健博士和硕士生孙涵宇为共同第一作者。该工作获得中国医学科学院医学与健康科技创新工程(CIFMS, No. 2021-I2M-1-028)和国家自然科学基金(NSFC, No. 82073692)的资助。