2022年6月22日晚,智药公开课第1期《AI药物设计前沿进展》线上开播。
本次活动由智药邦主办,北鲲云作为支持单位。公开课邀请了中山大学药物分子设计研究中心主任徐峻教授、加拿大蒙特利尔学习算法研究所 (Mila) 终身教授唐建博士、广州实验室研究员陈红明教授、北鲲云CADD产品负责人孙怡豪先生共同探讨和解读AI药物设计的最新进展。
索智生物共同创始人兼首席执行官许大强博士作为特邀全场主持人,为公开课开场致辞并依次介绍了各位专家。之后公开课正式开始。
以下是精彩回顾。
主题演讲
KEYNOTE SPEECH
【深度学习的基本原理与AlphaFold2技术成就解读】
徐峻教授从原理的角度,对AI药物设计领域最大的成就之一–AlphaFold2进行了解读。
在众多的蛋白质结构预测方法和工具中,AlphaFold2为何能脱颖而出?在药物设计中有哪些价值?
为了解读这个问题,徐峻教授系统的介绍了AlphaFold2蛋白质结构预测的流程、蛋白质三维从头预测的一些基本原理和基本假设,蛋白质的折叠面临的三大问题(折叠密码、折叠预测、折叠机制)、蛋白质结构预测三部曲(一维序列、二维距离矩阵、三维结构),蛋白质折叠的两个驱动力(物理驱动力和生物学演化驱动力),最后总结了AlphaFold2成功的主要原因。
从应用价值来说,AlphaFold2可以预测蛋白质复合物、预测同源/异源寡聚蛋白,通过预测蛋白质-蛋白质相互作用,有望大大拓展药物靶标的范围。AlphaFold2还可用于抗体设计、新颖的蛋白质结构设计。
在拆解了AlphaFold2的技术原理之后,再看AlphaFold2对药物设计有哪些启发,就变得很清晰了。对此徐峻教授有简要和精彩的总结。
AlphaFold2使用了多序列比对 (MSA) 的新方法,把离散空间中的每一个氨基酸残基确定在张量空间的位置,类似地,小分子可以建立一个巨大的张量空间,通过计算候选分子与种子分子在张量空间的距离实现虚拟筛选,未来的药物设计就是找到药物分子在张量空间的位置,而这种位置信息本质就是该分子的元数据 (meta-data)。
不过AlphaFold2并没有彻底解决问题,它给我们最大的启发是人类找到了不基于逻辑推理而是基于对大数据的学习就能发现规律、预测未来的手段。在过去,有规则才能预测,没有规则就不能预测。如今没有规则也可以预测。
【Geometric Deep learning for Drug Discovery】
唐建博士是图表示学习领域最具代表性的研究者之一。在本次公开课中,他从AI研究者的角度,介绍了他们团队如何将图神经网络和几何深度学习技术应用于药物发现的工作。
在几年前,唐建博士就开始利用图神经网络相关技术,对分子进行建模。小分子本质上可以理解为是原子跟原子之间的图结构关系,每个节点是一个原子,原子之间的键可以作为边。基于图神经网络,并结合自监督学习生成模型以及强化学习技术,唐建团队开展了很多分子性质预测、分子的设计以及优化、逆合成规划等方面不同的问题的建模研究。
最近两年来,团队的研究思路发生了一些改变。从分子结构的图结构表示,逐渐转向分子结构的三维结构表示,这是一种更好的、更自然更本质的表示。那么给定一个分子,如何去预测它的三维结构?这其中的一个重要问题是要保证三维几何结构的旋转平移不变性。针对这个问题,唐建团队开发了很多深度生成模型。此外,他还介绍了一个利用最新的生成模型Diffusion Model来对三维几何结构的生成进行建模的原理和核心思想。
唐建博士还提到了另外一个转变,那就是从去年开始,团队逐渐从对小分子的建模转到对大分子的建模。大分子建模中,更好的学习蛋白质的特征表示也是一个重要问题。而基于蛋白质的三维几何结构去学习它的特征,是团队的一个核心研究思路。
以上工作,都已被整合到一个专门用于药物研发的开源机器学习系统TorchDrug中,集成推出。
【北鲲云超算:提高AI制药工作效率"新引擎"】
北鲲云致力于为药物设计提供更好的平台服务,为此开发了北鲲云CADD Platforum。在此次公开课中,孙怡豪先生介绍了该平台的特点和功能。
北鲲云的总体架构共分为三层,分别是LaaS层、PaaS层、SaaS层。在LaaS层,北鲲云与各种各样的云厂商合作,获得他们的算力资源。在PaaS层,北鲲云专注于自研各类云计算相关IT技术,以帮助用户更好更快地使用这些来自LaaS层的庞大算力资源。最后在SaaS层上则是各种行业的具体业务实现,用户在使用过程中仅仅只需关注自身业务需求而无需关注底层如何帮助自己计算。CADD Platforum即是北鲲云在SaaS层上推出的一款全新产品。
北鲲云CADD Platforum基于项目的概念,在项目层面中进行数据、任务、文档的共享,并通过自研的高通量工作流引擎,使得用户能够自由组合实际业务,从而提高研发协作效率和计算效率。
为了增加用户体验,北鲲云CADD Platforum从不同的使用角度上预先提供了常用的公开数据库,如:ChEMBL、DrugBank等。在业务上,平台目前主要积累有LBDD和SBDD两个方面的相关业务算子,并将这些存放于算子市场供用户自由搭配组合以实现复杂的业务需求。
考虑到客户对数据的敏感性,北鲲云提供了三种私有化模式,即账号模式、私有模式、混合模式。
最后,孙怡豪先生介绍了使用该平台的三个案例:构建大型多源分子库、简化虚拟筛选流程、蛋白质配体复合物的MD模拟的案例。
【AI生成模型在药物设计中的应用】
陈红明教授曾在阿斯利康瑞典哥德堡的研发中心从事计算化学和新药开发工作长达18年。在此次公开课中,他介绍了几个AI药物设计生成模型的构建方法和应用案例。
陈红明教授首先比较了传统的基于组合库的分子设计方法和使用AI的基于生成模型的分子设计方法的区别。前者基于规则,利用预定义的反应规则和可及的反应砌块集合来设计组合库,在组合库空间中进行搜索;后者基于数据驱动,从已有的分子结构数据中学习分子设计规则,而无需定义任何固定的规则。
接下来陈红明教授介绍了其开发的REINVENT算法的工作流、在AZ内部应用的两个项目实例和在生物岛实验室内部的一个项目实例。REINVENT曾在15个月的时间内 (总共合成140个化合物) 找到了一个全新结构系列,获得了满意的生物活性和药代性能。
陈红明教授还曾开发了一个基于碎片的药物设计的生成模型SyntaLinker。SyntaLinker采用Conditional transformer模型,在ChEMBL测试集和CASF集上表现良好。SyntaLinker能从理论上复现一些文献中报道的案例,包括碎片连接案例、连接段优化的案例、骨架跃迁的案例。
那么除了理论复现外,SyntaLinker是否能够在实际中得到一些有活性的分子?陈红明教授介绍了使用SyntaLinker发现具有新骨架结构的AKT抑制剂、发现具有新骨架结构的TBK1抑制剂的两个案例。
除此之外,陈红明教授还对SyntaLinker进行了扩展,得到SyntaLinker-hybrid,并将它用于激酶抑制剂的骨架跃迁研究。
圆桌讨论
ROUNDTABLE DISCUSSION
在讨论环节,许大强博士向几位专家提出了两个问题。
许大强:在你们的研究基础之上,你们还想做哪些工作?这些工作会给AI药物发现带来什么?
徐峻:我的科研以问题为导向。我的主要研究方向是抗代谢类疾病、抗骨质疏松、抗衰老。我有一个药物发现的观点,那就是从自然界里面得到的一些化合物,最后能开发成药的可能性更大。
唐建:我们以前主要是做小分子,现在主要是做大分子,做蛋白设计、抗体设计,我们对蛋白质-蛋白质相互作用也非常感兴趣。另外,我们希望在做方法的同时也做药。我们开始偏重干湿实验结合。这是我们未来1到2年非常希望推进的一个方向。
陈红明:我们还是集中于小分子药物设计。一方面开发一些新的AI生成模型,另外也会在实际中检验生成模型的效果,比如干湿结合。我们也在跟可以产生大量反应数据的高通量化学合成的团队合作,希望能用AI帮助发现一些新的化学反应。
孙怡豪:就我们来说,我们现在逐渐的开始从CADD开始转变到AIDD,而且现在也应用了很多。我个人觉得AI和制药是一个颠覆性的结合。
许大强:大家认为,AI最终能够为新药研发带来什么?
徐峻:我们觉得现在是旧技术跟新技术的一个交接阶段。很多基础性的知识和东西还没有在我们国家建立起来,需要形成一个共同的开放生态和平台。比如AlphaFold2的多序列比对的技术不是他自己开发的,但是DeepMind团队把最好的算法都整合到平台中。与之相比,我们需要中国的Pharmaceutical TensorFlow。
唐建:我个人比较乐观。AI技术进入制药领域也需要一点时间,未来肯定会朝着数据化自动化智能化的方向的发展。我觉得五年之内会发生大的变革。
许大强:现在进入临床的AI设计的新药,肯定有一些可以成功走到终点。AI多大程度上提升研发效率,可能还需要更多的时间去积累更多的案例来分析。
徐峻:以药代动力学为例,有几十个参数,参数相关的函数有好多层。现在的深度学习,它的本质就是把函数串接起来,并联或串联形成很多层。每一个函数都解决很具体的问题。这方面的基础工作的进展与五年之内AI药物发现的进展密切相关。
陈红明:五年内有大的改变,可能有点偏乐观。产生先导化合物是可以的,但是成药性的计算预测一直不太好。如果碰到一些问题,可能还需要人工的一些改造。不过我觉得前景还是光明的,至少在很多环节上AI能够帮助我们加快效率。
许大强:我也是cautiously optimistic,AI能否颠覆现在的做药方式还需要时间来回答,但是我相信AI将会为新药研发带来很多变化,5年后我们的做药方式和手段肯定会比我们今天的实践有显著的提升—更高效、更可靠、更程序化。
BRIEF SUMMARY
近年来,人工智能在药物发现与开发中的应用广受关注,掀起了一股浪潮。支持者认为AI会给药物发现带来颠覆性的变革,怀疑者认为AI的大多数承诺无法实现。
不过,随着研究和应用的推进,与一两年前相比,关于AI药物设计的讨论重点,已逐渐从“是否有用”,转向“多大程度上有用”。
AI药物设计技术与传统药物设计技术之间的区别也逐渐明朗,被更多人了解和接受。比如陈红明教授提到,传统的基于组合库的分子设计方法基于规则,而生成模型的分子设计方法基于数据驱动,无需定义任何固定的规则。
作为AI在生物医药领域的成功应用案例,AlphaFold2预测蛋白质结构的思路和技术,值得药物设计借鉴。在此次公开课中,徐峻教授提出了一个颠覆性的思路,即“未来的药物设计就是找到药物分子在张量空间的位置”,值得深入研究和探讨。
那么制药行业目前如何看待AI技术的价值呢?许大强博士有数十年的药物研发经验,曾担任美国普渡制药市场部和新产品计划部总负责人、美国诺华市场部产品总监、苏州诺华研发中心总经理,他的观点“cautiously optimistic”或许能够代表制药行业对于AI的一部分主流观点。
此外我们可以看到,IT和AI的技术力量越来越多地进入药物设计领域。以唐建博士为代表的AI学者将图结构表示、三维结构表示应用于药物设计;如孙怡豪先生所说,北鲲云等IT力量也在持续构建和完善专业的CADD/AIDD计算服务平台。越来越多的外部资源和力量加入到了药物研发当中。
而围绕数据的产生和使用,“高通量”、“自动化”、“干湿结合闭环”等关键词越来越多的被提及。
最后,期待所有的努力将有助于提升药物研发生产率。
本次公开课吸引了700多位业内专业人员进入直播间观看 (可回看)。请大家继续关注【智药邦】微信公众号,后续我们将围绕AI+药物研发,陆续推出不同主题的公开课。
——— End ———
原文链接:https://cloud.tencent.com/developer/article/2165224