北京大学计算机学院张铭教授团队联合华盛顿大学等团队,成功提出了生物活性基础模型 ActFound,登上国际 AI 顶刊。在跨域生物活性预测、先导小分子优化、癌症药物反应上,ActFound 表现出色。
小分子生物活性在药物研发中扮演着至关重要的角色。生物活性反映了小分子与生物系统中特定靶点(如蛋白质、受体或酶)相互作用并引起可测量的生物学反应的程度,是筛选潜在药物候选物、优化分子结构以及预测药物疗效和安全性的关键指标。
准确预测和评估生物活性不仅可以大幅缩短药物筛选时间、降低研发成本,还能帮助研究人员理解药物作用机制,从而加速新药开发进程,为患者带来更有效、更安全的治疗方案。
在生物活性预测领域,已有的基于物理的计算方法如自由能微扰(FEP)可以给出准确的预测,但是他们却面临着计算成本高昂的问题。
近年来,深度学习方法展现出巨大潜力,但面临着实验数据有限和不同实验测量的生物活性不兼容的问题。
以往研究者使用了迁移学习、多任务学习和元学习等先进机器学习技术,但是他们只在特定类型(例如 Ki,Kd,IC50)和单位为摩尔浓度的生物活性数据上训练,使得模型难以泛化到具有从未见过的类型(例如 EC50)或者单位(例如‘%’)的生物活性预测任务上。
为解决这一挑战,北京大学计算机学院张铭教授团队联合华盛顿大学助理教授王晟、博士后肖之屏和复旦大学教授徐盈辉等,提出了一个由 ChEMBL 数据库中 160 万个实验测量的生物活性数据训练而成的生物活性基础模型 ——ActFound。
目前,这项工作已登上国际顶尖 AI 期刊 Nature Machine Intelligence (简称 NMI,最新影响因子为 18.8)。
ActFound 的核心思想是采用成对学习方法,学习同一组实验中两个小分子之间的相对生物活性差异,从而避开不同实验之间的生物活性的不兼容问题。该模型还利用元学习技术,帮助模型在仅有少量数据的情况下提升预测准确度。
审稿人认为成对学习和元学习的组合不但成功解决了活性预测的核心问题,而且还对其他领域的发展有所启发。
在六个生物活性评测基准数据集上,ActFound 展现出了准确的预测能力,以及在不同生物活性类型和分子骨架之间的强大泛化能力。
研究还表明,ActFound 可以作为领先的基于物理的计算工具 FEP + 的替代方案,仅使用少量数据进行微调就能达到相当的性能。
为了验证 ActFound 模型的性能和实际价值,研究团队进行了一系列生物活性预测任务的实验。
首先,研究人员在六个不同的数据集上评估了 ActFound 的性能,ActFound 在 ChEMBL、BindingDB、FS-Mol、pQSAR-ChEMBL、Davis 和 Kiba 上的表现优于所有九种对比方法,展示了其在几乎所有类型实验中的广泛适用性。
在跨域生物活性预测方面,ActFound 同样超越了现有的最先进方法,证明了在不同类型的生物活性数据上良好的泛化能力。
其次,研究团队将 ActFound 与自由能微扰(FEP)计算工具进行了比较,以展示 ActFound 在先导小分子优化方面的实际价值。
实验结果表明,ActFound 具有作为 FEP + 替代工具的潜力。
具体来说,Actfound 在仅仅使用了平均 4.8 个分子进行微调的情况下,ActFound 的效果超越了 FEP+。且 Actfound 可以在一秒之内预测超过一万化合物的活性,然而 FEP 需要 24-48 个 GPU 小时才能计算一对分子的相对活性差值。
最后,研究人员展示了使用 ActFound 预训练的癌症药物反应预测模型的出色表现。
实验结果表明,使用 ActFound 初始化的癌症药物反应预测模型无需微调就具有出色的表现,进一步证明了 ActFound 的广泛应用潜力。
总的来说,这些实验结果展示了 ActFound 作为一个生物活性基础模型,不仅在各种生物活性预测任务中表现出色,还显示了在药物开发和发现的其他环节的应用前景。
这些发现为解决现有生物活性预测方法中的局限性提供了有效的解决方案,同时也为加速药物研发过程提供了新的可能性。
作者简介
论文一作冯斌硕士毕业于北京大学计算机学院,导师为张铭教授。王晟和肖之屏也是北京大学信息学院计算机系校友,与张铭教授团队有多年的合作。北大团队成员还有博士生刘泽群、硕士留学生 Srbuhi Mirzoyan。
全体作者为 Bin Feng, Zequn Liu, Nanlan Huang, Zhiping Xiao#, Haomiao Zhang, Srbuhi Mirzoyan, Hanwen Xu, Jiaran Hao, Yinghui Xu, Ming Zhang#, Sheng Wang#(标#的为通讯作者)。