2021年4月10日-12日,吴文俊人工智能科学技术奖十周年颁奖盛典暨2020中国人工智能产业年会在北京和苏州同期圆满成功举办。星药科技创始人,清华姚班,MIT博士李成涛受邀在苏州工业园区希尔顿酒店,2020中国人工智能产业年会—疫情时代生物医药前沿论坛上发表主题报告《人工智能在药物研发领域的应用》。
以下为演讲实录:
首先谢谢曾老师邀请,谢谢会务组织,接下来我来聊一聊星药科技是怎么做的,为药物研发提供了什么样的价值。我会更多从产业界角度出发,看看如何落地,关于技术细节,很多位老师已经讲的非常多了,我就不多做赘述了。
我理解这是人工智能的会议,不知道在座各位有多少非常了解新药研发流程的,所以这边简单介绍一下。新药研发流程大概分为两部分,前半段是早期研发,包括早期发现,化合物优化,临床前研究,比如说确定靶标,结合位点,比如设计分子、筛选分子,都是在这个阶段发生的。我们可以理解为所有科学发现就是在前面这4-7年发生的,之后找到了分子要做一系列的测试:在细胞层面、动物层面、分子层面。如果觉得这个分子还不错,有可能能治疗实际疾病,那下一个阶段就会进入到临床试验,临床一期、二期、三期,其实也有很多药在临床期间失败了。
整个新药研发是一个非常长的流程,虽然我刚才讲的很快,实际上整个流程平均来讲是14年,前半段是4-7年,而且成本是非常高的。
新药研发领域跟计算机领域发生的事情很不一样,我们说存储或者芯片这边经常谈到摩尔定律,就是说随着科技发展、技术进步,每隔一段时间成本会下降一半,实际上在新药研发领域发生的事情恰恰相反,整个成本每9-10年会翻一番,到2020年左右,研发一款新药的成本大概是将近30亿美金,是非常非常大的投入。
临床前和临床阶段的成功率其实是非常低的,导致最后整体成功率非常低,进一步导致整个投资回报率也是非常低的。我们投了很多钱,锁定了很长时间,实际上我们很难收回成本。经常出现的情况是前期研发的时候就失败了,或者在临床一期二期三期中失败了。我想讲一讲人工智能是怎么样为生物医药这边提供价值的。从产业界来讲,2012年开始有很多革新,所有革新都集中在三个方面:算法、算力、数据。左上角IMAGENET大家都了解了,能够给我们一个大规模训练大规模测试的空间,还有NVIDIA,包括腾讯这边有更多算力可以做更多的计算,最后是这个模型,一开始有几十层,现在可能有几百层的网络,所以模型这边进展是非常快的。
这边有医疗影像,无人车,AlphaGo,由于算法、算力、数据的革新及进展导致现在可以做越来越多这样的事情。
人工智能+药物研发是其中一块,也是受到越来越多关注的一块。我们可能会思考,人工智能怎么样帮助药物研发?简而言之,不管是在临床前药物研发还和临床试验,人工智能都是可以提供很大帮助的。药物研发有很多形式,有小分子,有大分子,人工智能也都是可以提供一些帮助的。
我们公司主要做小分子领域,有很多图表式的学习方法可以去做,近年来也得到了比较大的、长足的发展,这块在小分子领域整体上人工智能应用是更加成熟的。
右面是在药物研发领域一些关键的应用,比如说活性预测,给我一个分子之后怎么预测它在人体细胞里面有没有生物活性?还有吸收代谢,比如我吃进去之后怎么样吸收?吸收率是多少?再有毒性的预测来达到治病的目的,还有剂型预测等等。
刚才讲到有两个方面,一个是分子层面,一个是蛋白质层面,实际上我们做人工智能药物研发最关注的就是这两块。怎么样表征一个分子,怎么样表征一个蛋白质,这边列出了很多种可能,从最简单的描述符开始,再到一维、二维、三维。不管是分子也好,蛋白质也好,尤其蛋白质的三维结构是非常非常重要的信息,在预测分子在蛋白质活性上面扮演了非常重要的作用。
这里表征方面有很多,有序列、矩阵、三维空间等,也有很多种适合不同表征的神经网络,有图神经网络,卷积神经网络,全连接神经网络等等。
回归到真正落地有两块,一个是分类与回归,一个是生成与设计。分类与回归很好理解,给我一个分子,我要判断它好与不好,比如说成药性、水溶性。我现在有一大堆分子就可以做这样一个判断,哪些分子可能比另外一些分子更好,这是我们可以做的判断。判断完一个分子好与不好,下一步是什么?下一步是找到这个分子,一种是分子库可以直接筛选,用分类与回归模型筛选有效分子。另外一块是怎么样找到新的分子,类似的数字大家都听到了,比如说可能成药的化合物空间大概是10的60次方,所以我们有很大的化合物空间其实是没有探索过的,人类现在探索过的大概是10的10-12次方这样的量级,中间差了10的50次方的量级,有一个很大的GAP。那我们怎么样找到人类没有探索过、没有测过的分子呢,它们的活性包括各种各样的成药性比现在已有的药品要更好,这就是生成与设计这边解决的问题,我们可以用人工智能方法设计一些分子或者生成一些分子。整个研发流程也是非常直观了,其实也讲到,在我们这边,包括在业界很多公司也有类似的方法。现在有很多数据,把数据放到药物研发平台里,我们根据进来的数据做一个深度学习,比如说分类与回归的模型,我们去预测它各种各样的指标,我们关注的指标可能有几十个。另外就是我们观察这些数据库,哪些是之前成过药的,我们看这些成过药的分子有什么样的规律,我们怎么样去设计一些新的分子,使得它可能满足这些规律从而更有可能成药,这是我们所关注的。
项目类型,本质上就是找到一个分子对应一个蛋白质,希望这个蛋白质上面有很好的活性,同时这个分子吃进去之后人没啥事。这边分为很多模块,有三条路,第一条是De Novo模型生成虚拟库,第二条是衍生与跃迁模型生成虚拟库,第三条是商业化合物库。这些库建完之后下一步是进行筛选,筛完之后找到相对来讲结构比较好、性质比较好、成药性比较高的分子去做,有些分子是可以直接买到的可以进行分子采购,也可以委托合成,最终要进行一波检测,检测回来之后返回到数据库再进行下一轮的迭代。这个模型在这一段可以得到不断的迭代和提升,预测就会越来越精准。
这是项目的介绍,我们第一个项目做了一个尝试,用CNS靶点,中枢神经系统靶点,这都是有靶点的,我们基于靶点进行有针对性的设计、生成以及筛选。最终筛选了全新设计出来的5个分子然后进行合成,有2个来自于De Novo模块,3个来自于衍生跃迁模块,经湿实验检测全部活性良好且具有专利空间。另外我们有一个巨大的商业库直接去筛选,当时我们筛选了100个分子进行购买和测试,结果57个有活性,34个有较高活性,这相比传统方法有质的提高。
而且这个工作时间很短,我们做人工智能本质目的是什么?本质目的是降本增效,希望把原本需要很多年的时间缩短到一年甚至更短,这是非常有意义的。实际上我们也做到了这一点,这个项目开始的时间是去年下半年,到现在也就半年多的时间,我们已经完成了传统药企两三年甚至更长时间的工作。
技术简介,我们这里有各种各样的模块,比如说小分子与蛋白质对接,刚才也讲到蛋白质结构是非常关键的因素。比如说我们根据现有分子进行骨架跃迁,有了分子之后再去找一个全新的骨架结构,使得新的骨架结构和原本的骨架结构虽然类似,但是是全新的,这些对于我们做更优化的药物化学分子和已经有的化学分子是非常关键的一步。
还有逆合成,我们公司一开始做的事情就是逆合成分析,给我一个分子之后我怎么样找到它的合成路径,这个在药企这边本身不是特别大的难点,但是假如说我们面临分子库更多的时候就需要做自动化筛选,这是我们当时做这个的初衷。
我们现在有很多模块、很多方法可以比传统方法效率高很多,其次是我们可以解决一些药物研发目前面临的难点问题。刚才讲的更多是传统问题,实际上人工智能可以解决传统药企解决的不是特别好的问题,这个我们也做到了,现在已经有项目是这样一个情况,还有我们可以降本增效,这就是我们带来的效率提升,这也是我们一开始做人工智能的目的所在。
我们希望为小分子药物研发,加速药物发现,大幅提高新药研发效率,使管线更加多样化、为医药产业提供新的思路,用人工智能加速新药研发的方式其实是大的趋势。
说的远一点,我们共同的愿望是希望为患者更早的提供特效药。实际上现在未被满足的医疗需求还是非常大的,有超过60%的疾病是无药可救的,大概50-70%的疾病重症患者对现有的特效药是没有响应的,这个时候我觉得我们所做的事情本身是非常有意义的。我自己本人是人工智能背景,我之前在MIT读的也是人工智能相关的专业,在波士顿的时候我碰到了很多做医药研发相关的科学家,也聊了很多,确实觉得人工智能能为产业提供价值,同时我作为一个计算科学家能够在生命科学中做一些事情,这件事情对我来讲还是蛮有趣的。