摘要:在被问到分子建模在未来25年中可能取得何种进展时,值得回顾过去25年中该领域已经取得了哪些进展。结论是,除非对基础科学有更大的投入,否则很难对该领域的未来感到乐观。

Anthony Nicholls

原文:Nicholls, A. (2012) “The character of molecular modeling,” Journal of Computer-Aided Molecular Design, 26(1). Available at: https://doi.org/10.1007/s10822-011-9520-3.
编译:肖高铿

前言

在1964年为BBC做的一系列讲座中,理查德·费曼1评论道,那是投身于粒子物理学的大好时机。质子和中子具有类似夸克的本质的第一个迹象正在显现,关于基本力之间深层联系的讨论正在进行,每次会议都充满了令人兴奋的新发现。在费曼的心中,他已经预见到了一个时刻,那时像当前的标准模型这样的理论将会出现,他甚至意识到进一步的进展将非常困难,因为需要越来越高的能量来挑战这些理论。他认为,能够身处那个时代,成为这一伟大飞跃的一部分,尽管处于大洪水来临前的时期,但知道这场洪水即将来临,是任何科学家所能希望的最佳境遇。我向许多年轻科学家讲述了这个故事,鼓励他们留在分子模拟领域,即使这是一个发展非常缓慢的领域。“它不会总是这样”,我说,“请留下来,成为那不可避免的飞跃进步的一部分”。有时候他们会留下来,有时候他们会转向信息科学或其他更广泛的追求。像这样的特刊是一个机会,让我们诚实地考虑究竟是那些留下来的科学家能享受到费曼所说的奖励,见证这个领域的革命性变化,还是那些离开的人会庆幸自己做出了离开的选择。

首先考虑的是,在过去的二十五年中进展甚微的情况下,我们是否应该期待未来25年内会有显著的进步。回到1986年,你或许能够查看一个蛋白质-配体复合物的晶体结构,看到如何改进配体,制作一些化合物,并发展出有用的SAR(构效关系)。但自那时以来发生了什么变化?在几年前的一次戈登会议上,关于成功的分子模拟的报告几乎无外乎“找到口袋,填充口袋”。这些所谓的成功仅仅是些轶事而已。我们听不到那些并不罕见的失败故事。一些在结构生物学上投入重资的大型制药公司,一直在努力确定相对于通过合成和测试来“盲目”发展SAR的传统方法而言,蛋白质结构的真实优势。这是因为结构增强了经济学家所称的“沉没成本谬误”:当我们对一项任务进行了大量的投资时,即使放弃它是成本效益最高的行动方案,我们也往往不愿意这样做。在基于结构的设计中,尽管我们知道晶体学提供的只是一张现实的快照,但我们仍被这张图片所束缚。正如它有时确实有助于设计一样,那张图片也可能阻碍项目的成本-效益终止(cost-effective project termination),而项目终止是药物发现过程中必不可少的一部分。

注:cost-effective project termination意味着在药物开发过程中,当数据表明继续研究某个化合物或方向可能不会带来预期的成功时,及时停止该项目的能力。这样做可以在时间和资源上更加高效和经济,避免不必要的开支。在这句话的上下文中,作者指的是有时候依赖于晶体学提供的单一视角可能会导致忽视其他指示项目应终止的数据或迹象,从而影响决策的有效性和经济性。

确实取得了一些进展,特别是Dave Weininger发明的SMILES和SMARTS,成为了该领域的标志性时刻,但这些主要仅在工业界而非学术界得到认可。得益于计算能力的常规提升,药效团和形状分析增加了分子在三维层面上的相似性应用价值。但是,正如Willard Quine2所评论的,相似性的使用是不成熟科学的标志,而(本应是“成熟”的)科学,即物理学的应用对这个领域的影响最小。以对接为例,尽管在工业界内外都付出了大量的努力和应用,对接对药物发现的影响相对较小。它确实有其实用性,主要是帮助预测配体在活性位点中的结合模式,这一点它在“从零开始”时(即除了蛋白质结构外一无所知)大约30%的情况下能做到。由于这可以绕过对共晶结构的需求,这是一个不小的成就,即使其他更简单的方法(例如通过最大公共子结构进行叠合)往往更具竞争力且更快,尽管需要一些先验知识。然而,取代物理筛选的更广泛的幻想,更不用说预测结合能这一“圣杯”,现在看来与对接软件首次面世时一样遥远。原因很简单,可以通过观察“柔性”对接的实际用途而非声称的用途来说明,即允许蛋白质侧链或主链运动的情况。这类技术可以帮助确定已知配体的结合模式,但对于待确定配体的虚拟筛选却效果更差。这是因为我们无法预测不同蛋白质状态之间的相对能量。如果我们知道某化合物确实能结合,则增加可能的活性位点构型的搜索空间会有帮助。但如果我们不知道某化合物是否结合,则更多的蛋白质构象只会增加假阳性率。正是因为我们无法准确评估蛋白质的能量,阻碍了我们在对接中实现有用预测的进步。

尽管我已指出,除了在相似性应用方面有所进步之外,整体上的进展是微乎其微的,但我可以明确地说,我们在分子模拟方面比25年前做得更好。为什么会这样?因为我们更擅长使用工具,即使这些工具的有效性并没有显著提高。整个领域已经变得“专家化”,从技术意义上讲,就是花费了足够的时间,通常引用为10,000小时的目标驱动实践3。这方面的证据可以在OpenEye组织并在本期刊发表的盲测SAMPL挑战中找到4。在SAMPL中,人类在结合模式预测(pose prediction)等任务上常规地击败机器。这种专业技能使得工具真正发挥了作用,而不是让工具本身成为专家,但这更加凸显了该领域缺乏根本性进展的问题。我们通过查看数据取得了小步前进,而非巨大的飞跃。例如,如今无法构建具有一定用途的同源模型(即使是膜蛋白)已经是不正常的了。实际上,理论学家从未解决蛋白质折叠问题,而是晶体学家为他们解决了这个问题。这是相似性原则应用的又一例证。建模专家并非致力于提炼出可以广泛应用的通用原则,而是依赖于他们在特定领域积累的经验和知识来识别和理解问题。从积极的角度来看,正如晶体学家使同源建模变得有用一样,不断增加的蛋白质-配体结合知识最终会产生影响,即便只是通过软件体现人类能力的方式。在未来25年内,我们将摸索着走向对蛋白质和蛋白质-配体结合的更准确预测。我们不能失败,即使从科学角度来看结果可能非常令人不满意。其他领域也发生过类似情况。在语音识别领域,曾经有过开发人类声音形式理论以实现完美语音识别的方案。相反,机器学习将其焦点缩小到能够识别你说的是“credit”还是“debit”——这不是一个容易解决的问题,但比起构造亚瑟·克拉克在《2001太空漫游》中的HAL要简单得多。

注:“10,000 h of goal-driven practice”强调的是该领域中的专业人士已经投入了大量的时间(约10,000小时)进行有目的的学习和实践,从而在这个特定领域内积累了深厚的知识和丰富的经验,达到了专家水平。这种积累使得他们在技术和知识应用上更加熟练和高效。

Niels Bohr曾经说过,所有的科学要么是物理学,要么就是“集邮”。在接下来的25年里,我们将通过收集更多的“邮票”来看到进展。我们会看到任何真正的突破,任何物理学的实际应用吗?我认为目前有两个充满希望的领域,即小分子晶体结构预测和小蛋白质的折叠。在前者中,纽曼等人在剑桥大学组织的盲测挑战中6展示了自定义力场和参数化的长程色散相互作用的应用实际上可以对最低能量晶体多态性做出合理的预测——这可能是物理学应用于具有潜在药物实用价值问题的第一个实例。尽管当前某些技术手段需要耗费几个月的时间来完成计算,显得非常耗时,但随着技术的进步,现在看来困难但仍可解决的问题,在未来10年内将会变得简单直接,更不用说25年后了。这种方法的根本性转变将改变物理学在工业中的应用,不是因为多晶型问题对药物发现至关重要,而是因为一旦解决了这个问题,通向更为核心的性质——溶解度的道路将会被打通。晶体能量加上真空-水溶剂化能等于溶解度,这些年来,我们和同行通过SAMPL挑战赛等活动5在溶剂化方面一直在取得进展。

另一个希望的光芒是计算能力的增强,无论是来自定制硬件还是利用全球计算资源,似乎都在显示从小的线性序列中可以折叠出蛋白质结构7。我发现这有几个深刻的原因。首先,仅仅是因为花了这么长时间才达到这一点,就说明了经验方法对蛋白质来说根本行不通——你必须把物理学原理搞对。其次,尽管我们还没有完全掌握正确的物理学原理,但我们仍然能够折叠那些只有几kcal/mol边际稳定性的蛋白质。我们甚至无法将小的、类似药物的分子的溶剂化计算到1kcal/mol的精度。Merz8一直指出,即使是高质量的量子化学计算对于一对相互作用基团通常也有大约0.5kcal/mol的误差——这在一个蛋白质-配体相互作用过程中会累积起来。然而,模拟却能够在某种程度上区分正确折叠的状态,并且大致获得动力学参数。我的猜测是这些模拟之所以有效,部分原因是我们关注的是不同状态之间的相对能量,而不是绝对能量值,此外,还因为某些力场误差可能是负相关的,即一个误差可能会被另一个误差抵消。无论如何,能够模拟此类事件是一项了不起的工程成就。然而,应该注意到,距离“正确折叠”以使得侧链放置得当足以指导合成还有很长路的要走,而且更大的、有用的体系是否实用还不清楚。

尽管在未来25年内由于更多的数据和更高的计算能力(CPU周期),在某些领域会取得进展——但这种进展是否真的具有变革性(transformative)吗?对此我表示怀疑。虽然我认为在多晶型预测和蛋白质折叠方面会有进展,但我同样确信大多数领域的进展将会是有限的。例如,我不确定更多的“邮票”是否会大大改善蛋白质-配体相互作用的预测。我怀疑这个问题的维度足够高,以至于即使数据量大幅增加也不会有多大帮助。这还没有考虑到数据的质量问题,这里不详细讨论,但缺乏高质量的数据显然阻碍了进展。完全有可能的是,更多的数据只会意味着参数化更广泛的模型,而这些模型的实际应用前景有限。同样地,即使是关于晶体结构预测和蛋白质结构解析,我们可能也处于一个“鲍林点(Pauling point)”,即对体系的描述有效但有限。这两种方法到目前为止都处理了相当简单的体系,随着体系规模向实用性扩展,两种方法都有可能失败。模拟真的能折叠复杂的蛋白质吗?量子化学计算真的能为大而柔性的有机分子(如药物)计算亚千焦的能量吗?这些技术肯定会有用,但是不是一次伟大的飞跃?我对此持怀疑态度。

我真正想在最后提出的论点是,除非模拟或基于数据挖掘建立的模型能够完成一件简单的事情,否则未来25年内这个领域不会有太大进展。那件简单的事情就是:科学。让我感到惊讶的是分子模拟本质上是多么不科学。伽利略对科学有一个非常简单的定义,这一定义四百年前真正奠定了西方科学的基础。他说科学是一个三部分的过程:解析、论证和实验。解析是指有一个想法——能够将这个想法“解析”成你所知道的术语和概念中的可理解陈述。论证是指思考这个想法,在你已接受的概念框架内推敲其后果。论证是你看到你的想法意味着什么以及如何测试它的方式。然后实验则是实际的测试步骤,这一步骤会反馈到解析阶段以及支持那个想法的概念框架上。我们在分子模拟中得到了很多解析——尽管考虑到该领域对先前技术的理解不多,这里并没有太多新颖之处。我们也得到一些论证,但我们没有进行太多的实验。检查我们的想法与我们已经知道的事物是否一致并不算数——这是解析过程的一部分。我们通常能做到的最好的情况是找到并使用最初没有考虑的数据。如果这些数据有显著不同,我们通常认为这是很好的工作。但这不是实验。构思关键的真实世界实验来证伪一个想法——明确区分一个想法与另一个想法——我们不做这样的事情。在制药行业,重要的是制造出正确的分子——不是为了证实或反驳某个理论而制造分子;而在学术界,无休止的资金申请循环以及为了追求“有用的”研究工作而制造新的概念,通常阻碍了真正的科学研究。因此,这个领域就徘徊不前。

注:pursue ‘useful’ work(追求“有用”的研究工作)是指近年来,学术界越来越强调研究成果的实际应用价值,即所谓的“有用”,这意味着很多基础性、探索性的研究可能得不到支持,因为它们不一定能立即显示出直接的应用效果。

这种情况没有理由会保持不变。只需承诺将NIH或制药公司的科研预算中的一小部分用于非转化性工作,为那些真正有兴趣在基础科学上取得进展的小团体科学家提供支持——通过伽利略的过程计算,这笔资金25年的复利将是巨大的。重新建立理论科学家与实验科学家之间的联系,发布高质量的数据,举办专注于实际测试想法的会议——在25年内,我们有望看到分子模拟能够成为一个真正科学的学科。

避免误解的说明

斜体字的“注:”开头段落是我为了提高可阅读性而写的,并非来源于原文。

文献

  1. Feynman RP (2001) The character of physical law (Messenger Lectures, 1964). The MIT Press, Cambridge. ISBN-10: 0262560038
  2. Quine WV (1977) Natural kinds in ontological relativity and other essays. Columbia University Press, New York
  3. Ericsson KA, Charness N, Feltovich PJ, Hoffman RR (eds.) (2006) The Cambridge handbook of expertise and expert performance. Cambridge University Press, Cambridge. ISBN-10: 0521600812
  4. Skillman AG (ed.) (2008) Special issue: SAMPL2: tautomer ratio and solvation energy challenge, JCAMD, vol. 24, No. 4 (2010). J Med Chem 51(4):769–779
  5. Nicholls A, Mobley DL, Guthrie JP, Chodera JD, Bayly CI, Cooper MD, Pande VS (2008) Predicting small-molecule solvation free energies: an informal blind test for computational chemistry
  6. Day GM, Cooper TG, Cruz-Cabeza AJ, Hejczykm KE, Ammon HL, Boerrigter SXM, Tan JS, Della Valle RG, Venuti E, Jose J, Gadre SR, Desiraju GR, Thakur TS, van Eijck BP, Facelli JC, Bazterra VE, Ferraro MB, Hofmann DWM, Neumann MA, Leusen FJJ, Kendrick J, Price SL, Misquitta AJ, Karamertzanis PG, Welch GWA, Scheraga HA, Arnautova YA, Schmidt MU, van de Streek J, Wolf AK, Schweizerr B, Cryst A (2009) Significant progress in predicting the crystal structures of small organic molecules—a report on the fourth blind test. B65
  7. Voelz VA, Bowman GR, Beauchamp K, Pande VS (2010) Molecular simulation of ab initio protein folding for a millisecond folder NTL9 (1–39). J Am Chem Soc 132(5):1526–1528
  8. Ucisik MN, Dashti DS, Faver JC, Merz KM Jr (2011) Pairwise additivity of energy components in protein-ligand binding: the HIV II protease-indinavir case. J Chem Phys 135:085101