摘要:本文的讨论了传统CADD与目前机器学习(ML)、人工智能(AI)的关系,还探讨了CADD科学家们的职业地位、应该如何正确的看待ML、AI的出现。作者的关点是数据将会变的越来越好,这使得ML与AI越来越有用武之地,这是不可逆转的潮流,CADD应该拥抱ML与AI以便跟上这个潮流。

编译:肖高铿 2019-12-11
原文:Ash Jogalekar. Will CADD ever become relevant to drug discovery? Retrieved from https://www.linkedin.com/wukong-web/articleShare/6478029334677463040

首先让我们面对一些艰难的现实。好消息是,在过去二十年左右的时间里,计算机辅助药物设计(CADD或计算化学)已成为药物发现过程相对标准部分,甚至在未正式聘用CADD科学家的组织中,已经开始使用某些形式的计算——有时就像性质计算或可视化一样简单。

坏消息是,目前CADD并未被视为药物发现过程的核心部门,尽管目前已广泛使用。相反,它被视为支持部门。这种情况在二十年中仅得到了一点改善。生物学和合成化学仍然是药物发现的核心驱动学科,并且在可预见的将来仍将如此。如果有一种可以从CADD中获得最大收益的上市药物,那么它最多每十年左右出现一次(例如,好运找到另一种HIV蛋白酶)。尽管CADD科学家认为自己不可或缺,如同他们认为屏幕上的旋转图片令人印象深刻。然而同行们却仅认为他们所做的事与大图略有相关,这一事实是CADD们需要吞咽下去的一颗苦药。

为什么CADD即使现在已经以某种形式成为每个机构的药物发现一部分,却不被视为药物发现的核心部门?原因有两个,一个与现实有关,另一个与认知有关。现实是,药物发现和生物学仍然是需要非常多实验的学科,你根本无法计算出获得药物的途径。从这个意义上说,CADD还远远不够。与产出产品(装在瓶里的化合物、实验测试、动物模型的构建等)的合成化学和生物学不同的是,CADD只是产生想法。现在,CADD的优点之一是:这些想法因其通用性而可以使用(例如,“在此处放置个疏水基团”)。但这种极其的通用性却往往不利于CADD。合成化学家尤其希望看到具体的建议。尽管其中很多人都喜欢一般性的指导,但效果却不尽相同。CADD科学家还经常提出被认为是显而易见的建议——填充疏水口袋是一个标准建议——这甚至对其他科学家来说都没有吸引力。

CADD的这种被低估的声誉影响了学科以及该学科的科学家们。CADD科学家的市场通常是一个利基市场:需求低、供应量低。通常,一个小型机构只有一到两名CADD科学家。但是,CADD的支持角色意味着在裁员时CADD科学家比细胞生物学家或生物活性测试方法开发人员更有可能离职。由于CADD科学家的总数并不多,因此他们(的这些事)也可能没有被直接报道出来。所有这些意味着CADD科学家可能没引起高级管理人员的注意。他们很少担任高级管理职位,如CSO、药物研发副总裁或CTO。如果你在大型和小型药物发现机构中随机抽取高层管理人员的样本,那么在这些职位上很少会找到具有CADD背景的科学家。

CADD的辅助角色加上缺乏核心影响力以及缺乏对CADD科学家的理解,意味着他们经常必须进行艰苦的战斗才能表达自己的声音。虽然这是一次良好的角色塑造经验,但不一定会促进职业发展或对该领域产生越来越大的影响。那么,CADD如何对药物发现和认知产生更大的影响?

至少部分答案——就像今天许多药物猎人(drug hunter)所认为的那样不合时宜——确实涉及大型数据集和机器学习。我并不是说机器学习(ML)或某种形式的人工智能AI)会产生直接的、大肆宣传的、变革性的影响,而这种影响通过硅谷的太阳镜往往显着太明显了。但是我说的是,随着时间的流逝,机器学习和人工智能对药物发现的影响将无可避免地增加,任何选择放弃这些技术的人都将被甩在身后。

我相信这一点自然有重要的原因。最重要的原因是与蛋白结构和基于物理的算法有关的传统CADD远远没有实现其预期。问题的部分原因在于80年代末和90年代初的炒作,但更现实的问题是数据通常不够好,即使数据很好,也可能只是影响早期药物开发非常有限的一部分。最大的问题是,即使在一位领先的CADD科学家宣称使用CADD预测结合亲和力所固有的挑战(蛋白质柔性,水的行为,拥挤效应/crowding effects)后的三十年,我们现在仍在努力地解决相同的问题。这意味着我们对蛋白质-配体相互作用的基本物理知识仍然一无所知,更别提做出可靠的、普遍的预测。

我并不是说在过去的二十年里,基于物理学的方法根本没有奏效或得到改善——某些应用(例如基于形状的相似性搜索和结合模式预测)确实显示了惊人的进步,但事实仍然是,我们仍在游泳在无知的海洋中。无知是出于对基本科学知识的理解,还是无知是由于将我们当前的理解改造成可行的方法。同样重要的是,即使我们了解这些因素,它们也只是适用于药物设计的非常狭窄的部分,即提高单个小分子与(通常)单个蛋白质之间的结合亲和力。据我们所知,最好的CADD专家也只是设计好的配体,而不是药物。

相反,基于大型数据集的方法与蛋白质-配体结合的物理学无关。原则上,他们可以获取大量被精心标注过的关于相互作用能的数据点,并预测新的相互作用将是什么样,而无需显式建模单个氢键。他们不了解因果关系,但可以提供可行的关联关系。但是在我看来,机器学习方法的第二个真正新颖的优势是,与传统的CADD甚至在最佳状态下适用于非常狭窄的药物发现过程不同的是,ML在理论上可以通过简单地往Excel上添加更多的列来涵盖药物发现的多个方面。因此,如果一个人有多种数据(体外和体内结合亲和力,突变,代谢数据,溶解度,清除率等),传统的CADD几乎只能利用一种或两种数据,但是ML可以考虑所有的数据。因此,机器学习几乎是解决药物发现核心的多参数问题的唯一方法。

现在,众所周知,数据的真正问题不是物理,而是数据(包括阴性数据)的数量、质量和标注。但是,毫无疑问,在每天的药物发现各个阶段中,这些问题都会变得越来越好,并且越来越集成。无论是PDB中的结构,药物的合成反应还是TCGA(癌症基因组图谱)中的患者数据,数据的数量和质量的改善都是无可避免的。随着数量和质量的提高,该数据在机器学习中的效用也将提高。这是确切无疑的。所以说,反对者们正在与一股只会越来越强大的潮流作斗争,即使它不会变成海啸,而它的践行者会说,海啸很快就会吞没这些人。

我们到那里了吗?答案是否定的。在一段时间内,我们可能无法获得可衡量的影响,尤其是在我们不得不突破在前行道路上如此多的炒作宣传以探究因果关系甚至相关事实核心的情况下。诸如深度学习之类的令人印象深刻的技术的适用范围仍然有限(例如,它在图像上效果最佳),并且数据问题仍然是一个大问题。但是我要说的是,除非CADD接受机器学习和AI(无论是否被大肆炒作),否则CADD科学家将始终只能在药物研发的宏大舞台上占据边缘地位,进而CADD科学家将越来越多地在职业和学科进步方面被排除在外。当蛋白质和药物类别都扩展到空间时(比如非结构化蛋白质,大环化合物等),这一点尤其正确,这对传统的CADD来说比往更具挑战性。

可悲的是,就像现在的许多事情一样,在CADD中提到AI或ML仍然会引起两种极端的反应:第一种常见的反应是说它会解决所有问题,是下一个大事;但第二种也很常见,它说这都是炒作,好的旧思想永远会更好。但美好的旧思想将永远存在。数据越来越好,机器学习也越来越好;这几乎是确定无疑的,选择忽视它们无疑是将自己置于危险的境地而不顾。底线是,除非CADD开始将机器学习准确或误导性地落入“AI”定义之内的相关技术工具,否则其在药物发现和开发中的作用就有可能逐渐消失。这将对CADD和药物发现造成极大的伤害。

每年公布诺贝尔化学奖时,因为获得诺贝尔奖的工作与生物学或物理学的关系和与化学的关系一样大,都会引起一些抱怨,甚至集体的强烈抗议:“但这还是化学的吗?” 然而,多年来对物质的更精细的理解使我们认识到化学对生物学或物理学的吸收和它们对化学的吸收一样多。自从化学从炼金术的裹尸布中出现以来,它的定义一直在变。化学生物学、化学物理学和化学工程既是生物学、物理学和工程学,也是化学。在我看来,同样的事情也需要发生在CADD身上。拥抱计算机科学、自动化或AI,CADD并没有失去它的身份。这表明它的范围比任何人想象的都要大、巨大、内涵非常大。