摘要:虚拟筛选的目的是利用蛋白质靶标或已知生物活性配体的相关信息通过计算的方法来识别具有活性的化合物。虚拟筛选有众多的参数设置,潜伏着许多误区,可能会导致虚拟筛选效率低下甚至完全无用。本文试图对虚拟筛选方法存在的问题、缺点、失败和技术陷阱进行分类,从而让用户意识到它们,并在虚拟筛选的过程中对其规避。

原文:Scior, T. et al. (2012) “Recognizing Pitfalls in Virtual Screening: A Critical Review,” Journal of Chemical Information and Modeling, 52(4), pp. 867–881. Available at: https://doi.org/10.1021/ci200528d.
编译:计算机辅助药物设计实验室/沈阳药科大学
第一版:2019-01-01

封面

前言

虚拟筛选(VS)是一种日益被广泛使用的方法,用于从大型化合物库中识别某种具有新活性的化合物。虚拟筛选可以分为两大类,即基于配体的虚拟筛选和基于结构的虚拟筛选1。基于配体的方法利用一组已知活性化合物的结构活性数据来识别候选化合物进行相关的药理测试2。基于配体的方法包括相似性和子结构搜索、定量结构活性关系(quantitative structure−activity relationships, QSAR)、药效团和三维形状匹配等3。另一方面,基于结构的虚拟筛选利用生物靶标的三维结构(通过X-衍射晶体学或核磁共振实验确定,或通过同源建模计算确定的三维结构)对接候选分子,并根据预测的结合亲和力或与结合位点的互补性对其进行排序。虚拟筛选的方法学与成功案例已有大量文献报道、可参见最近诸多的综述4-7,对该领域的现状同时进行了批判性的评估8。本文只关注虚拟筛选的误区及其与这些参考文献中讨论的许多方法之间的关系。基于配体的虚拟筛选的基本概念已经出现在教科书中,为了在更多的药物化学类读者中推广,通常以非技术性的方式呈现9。关于虚拟筛选算法的详细信息,强烈推荐最近发表的一篇参考文献9

虚拟筛选可以看作是对化学空间的挖掘,其目标是将具备目标性质的分子与不具备目标性质的分子区分开来。与大多数预测方法一样,不应该假定虚拟筛选能以完美无瑕的方式实现这一目标。虚拟筛选高度依赖于可用数据的数量和质量(最近一篇综述中提到了10)以及底层算法的预测/区分能力。由于目前有太多的虚拟筛选工具和方法学可供选择,因此它们的预测/区分能力在现阶段变得更加重要。

在药物化学领域工作的科学家,尤其是计算化学家,一定不要低估虚拟筛选过程中的困难和其本身固有的局限性。QSAR(定量构效关系)提供了一个好的范例。关于QSAR中的存在误区的文献在早些时候已经发表了11,12,这也同样适用于虚拟筛选。QSAR和基于药效团的虚拟筛选所固有的一个基本假设是“相似性质原则”,即结构相似的分子可能具有相似的性质。虽然这个假设在很多情况下是正确的,但是在QSAR领域有很多反例,它们会导致错误的预测,动摇实验者对QSAR模型后期应用的信心。有趣的是,与之相比,虚拟筛选中这种情况还没有出现(或者没有达到相同的程度),不同之处在于,QSAR通常用于评估数量有限的合成候选化合物,因此其表现出的错误更加明显,相应的成本也更高。然而,当这些技术应用于大规模筛选大量化合物库的时候,更容易包庇错误的产生,原因是在原本是随机选择的基础上增加了命中次数和多样性 (参见表1)。

在本文的其余部分中,我们审查了许多已知的和仍未报道的虚拟筛选的局限性和技术陷阱。这些案例组合在一起,作为可能存在的误区及其解决方案同时呈现出来。为方便读者,资料亦以表格形式提供。表2总结了之前在虚拟筛选基准研究中所报道的虚拟筛选的误区,表3列出了具体的主题。

我们将误区分为四类:(1)与错误的假设和期望有关的误区;(2)与数据设计、内容有关的;(3)与软件选择有关的;(4)与构象采样、配体和靶点的柔性性有关的。

1.与错误的假定和期望相关的陷阱

陷阱a:期望虚拟筛选识别出高亲和力的化合物

虚拟筛选的主要目的是识别出对特定靶点具有生物活性的新化合物8。然而,有时实验者和审稿人期望虚拟筛选能得到具有强活性的化合物。发现强活性的苗头化合物固然是好,然而这不是虚拟筛选成功的必要条件,因为亲和性的优化典型地发生在寻找先导化合物和先导化合物优化阶段。就这一点来说,虚拟筛选和高通量筛选一样主要目标是获得尽可能数量和种类多的起始化合物,而不是活性尽可能强的化合物。评估虚拟筛选算法时设置一个二分的活性阈值是困难且武断的。设置阈值这种评价虚拟筛选方法的缺陷不仅与比较研究中基准数据的选择有关(像MDL药物数据库之类的数据经常没有数字的活性值),还与药物筛选实际使用的阈值有关(结果因具体实验的活性阈值的选择而不同)。

陷阱b:严格的搜索条件

使用药效团模型一个需要解决的基本问题是三维空间中药效团特征相对位置不确定性的设定。一方面,太严格的设置将会导致从虚拟筛选得到的化合物缺乏多样性,而太笼统粗糙的模型会得到一大批假阳性的化合物。还有,相关的设置选择会因研究者的经验而变得随意。一个直接有效的评估每个药效团特征的相对重要性的方法最近被提出30。与用整个药效团获得的相比较,每一次减少一个药效团特征,导致的命中率降低可以用来评估药效团特征的相对重要性。这是一种通用方法,不仅仅是药效团的查询结构还有用户定义的任何设置条件在筛选算法中都容易受到严格和宽松标准的影响。

陷阱c:预测错误的结合构象

迄今,基于分子对接的虚拟筛选是最常用的基于结构的虚拟筛选方法之一8。然而,对接筛选会意外地因为错误的原因产生正确的结果;换言之,虽然对命中化合物的打分正确,但给出错误的结合模式(binding pose)。因此,一些著名的成功故事仅仅是偶然的结果。一个回顾最近15年来蛋白-配体对接的综述发现仅仅只有少数几个研究有真正的证据表明预测的结合模式是正确的46。其他的综述甚至总结到:对于预测化合物亲和力,没有一个对接程序或打分函数对配体的结合亲和力做出真正有用的预测48

陷阱d:可变的水分子介导相互作用

由水分子介导的配体与蛋白质的氢键在蛋白质晶体复合物中经常出现。在基于结构的虚拟筛选研究中,这些水介导的氢键可以考虑进去,但是这种水介导的氢键很难预测具体数量、结合位置、结合方向。在这种情况下,要使模型类似于真实的结合环境,其复杂程度明显增加,这也成为不确定性的来源:因为必须要考虑的可能的结合状态变多,更不用说需要更高的计算成本。

陷阱e:单个与多个/变构结合口袋

基于结构或基于配体的虚拟筛选都有一个固有的缺点,他们无法识别不包含在对接计算中显式定义的结合口袋之外的活性化合物,也不能识别训练集隐式定义的结合口袋之外活性化合物在实验验证过程中,配体很可能(而且经常会)结合到其他的结合口袋,而且结合效果很好。这也出现了疑问,活性化合物的富集是设计出来的还是意外收获的。配体的结合位点通常是未知的(例如在放射性配体结合试验中),这使得对于虚拟筛选实验进行正确评估命中率的问题复杂化。

陷阱f:虚拟筛选后化合物挑选的主观性

在实践中,虚拟筛选工作结束后,虚拟筛选命中得到的化合物会被相关研究人员再挑选,这些化合物中的一部分会进行物理筛选。我们的经验表明,某些妥协和潜在的主观的决策在这里发挥了重要作用(见下文关于子结构的结构特征相对权重陷阱)。假设有这样一个课题研究:一个基于配体的虚拟筛选实验使用含有500,000分子结构的内部化合物库进行,这个虚拟筛选命中了1000个得分较高的化合物结构。然而,生物筛选实验实在低通量模式下进行,且只有100个分子的筛选能力,同时化合物需要进行人工挑选,在这种情况下正确的处理方法是什么?简单地从排名前100位的结构中选择,可能会选择到一组在结构多样性上有冗余的类似物。更好的方法是对这些化合物进行聚类分析,将结构相似的化合物聚类到相关的家族中,并从每个聚类(或聚类分支)中选择少量分子。虽然这种方法相当合理,但是他在虚拟筛选过程中引入了偏好(或主观性),使得不同化合物间的横向比较产生困难。

陷阱g:预验证

虚拟筛选算法的基准测试所用的数据集通常包含已知活性的化合物以及推测的非活性化合物。一旦确定并发布了最适合的虚拟筛选的流程,研究者很少在前瞻性环境中进行讨论和外部验证。相比之下,QSAR研究要求对模型进行严格验证,包括对模型开发期间未考虑的新数据集的实验验证11。尽管有些期刊现在开始实施相应的编辑指南(如期刊JMC),但这在虚拟筛选中并不常见。

陷阱h:类药性

一些虚拟筛选方法(无论是在研究设计水平还是软件算法上)都是基于Lipinski提出的类药性五原则定义的“药物相似性”化合物49。可是,我们应该知道,类药性五原则仅适用于口服生物利用度,而许多生物活性物质如抗生素通常不属于本规则的范围。因此,虚拟筛选方案通常在相对较小的化学空间中应用和验证,并且当超出已知药物类别范围时(比如在寻找目前认为大多数不属于类药性五原则的靶向蛋白质-蛋白质相互作用的新化合物时)它们的性能可能急剧改变。

陷阱i:基准库的多样性VS预筛选多样性

大量已发表的虚拟筛选研究10是在公有库和商业库(通常符合“类药性”)的化学空间中进行的。然而,筛选库的类型需要与特定虚拟筛选的目标密切相关,并且需要确保不同批次的计算结果之间应当具有可迁移性50。化学多样化的库对于识别新的或相对未探索的靶标的新骨架化合物极其有益,例如定向多样化合成51,52。如果筛选的目标是针对特定的靶标家族,则可以使用靶标导向合成(target-oriented synthesis, TOS)53——集中库或靶向库54。如果目标是先导化合物优化,则使用分子间相似性高的化学库55。一般来说,天然产物的结构不同于合成化合物的结构,并占据不同的化学空间。56有趣的是,Lipinski评论说,大量天然产物是具生物可利用的,近期的一篇文献57支持了这一观点合理性。除了诸如《天然产品词典》(Dictionary of Natural Products58)之类的商业数据库之外,其它的如ZINC与Specs数据库59也包含了天然产物子集。此外, Drug Discovery Portal60也有天然产物库可以用于虚拟筛选。总的来说,需要牢记的是库的选择必须与实验的目的相匹配。

2.与数据设计及内容相关的陷阱

陷阱a:基准数据集的可比性

在实践中,很难确定虚拟筛选研究成功的原因,特别是在采用多种方法的情况下。有时作者评估他们手头上虚拟筛选方法的性能(基准测试),而另一种方法是在元分析中比较基准测试结论的鲁棒性。鉴于一级文献在许多情况下使用不同的靶标类别和数据集,所以元分析变很得重要82-84。总体而言,也许可以正确地指出,在许多情况下,基于配体(2d-)的方法往往优于对接方法,而基于指纹图谱(2d-)的方法通常优于基于形状(3d-)的方法,例如在通用诱饵数据库(DUD)中包含的靶向蛋白的情况下85,42。本着同样的精神,MacGopher和同事发现,在研究的数据集上,平均而言,基于配体的方法在多个目标上的平均性能优于对接算法86,21

VS性能的比较取决于查询分子、生物靶标或者被筛选的化学数据库83,84。在有许多不同计算方法的情况下,良好做法是在少数标准数据集(例如DUD85)上评估其性能,以便能够对方法进行直接比较42,85。为了使这些研究有意义,必须清楚地描述所有参数。在计算机辅助分子设计杂志87的特刊中详细讨论了潜在的问题,并在可能的情况下,应遵循最佳做法(如Rohrer等人概述的做法88)。最近的一些举措,如”具有建模环境的在线化学数据库”89,旨在公布实际模型和用于开发这些模型的数据集,它对分享、基准测试与评估模型的重现性产生积极影响。一个类似的工具,Chembench90,提供了严格的模型验证例程。然而,在其当前版本中,没有为与开发的模型一起存储和共享数据做出任何规定。

陷阱b:性能指标的可比性是有限的

不但用于VS算法基准测试的数据集往往难以比较,并且所使用的性能指标也是如此。在这种情况下,使用平均富集因子(Enrichment factor, EF)作为性能的衡量标准是相当危险的,因为所得到的EF数值在很大程度上取决于筛选的数据库中活性分子和非活性分子的比例91。EF的一个陷阱是饱和效应(即EF有最大值),它使得虚拟筛选基准测试结果的不具备区分度82。其他研究人员42也报告了性能指标的问题,如富集因子和ROC图,因为它们的值在早期和后期性能(曲线的起始段和上限段)方面没有很好的区分能力。在此情况下, BedROC打分92应运而生,它可以用于评估虚拟筛选的早期和晚期的性能。

陷阱c:基准数据集的命中率

使虚拟筛选算法的基准测试复杂化的两个因素是化学库的大小与多样性。在早期,基准库要么是太小了,要么是包含了太多密切相关的类似物,而通常情况下是二者都有47。小库不能代表绝大多数的真实应用场景,因为其命中率通常在0.01%到0.14%之间93。与之类似的是,过于同质的库人为地夸大了方法的性能。这种“类似物偏差”不仅表现在结构层面上,还表现在粗糙的物理化学性质水平上20,94,95。为了解决这一问题,最近的研究主要集中在活性分子子集的选择上96,97或者是计算数据库中在命中分子召回不同分子骨架化合物的富集度40,98。然而,不仅是活性分子,非活性分子对于评估方法的性能也是至关重要的。例如,当我们需要训练一个能够从马、车、火车、飞机等的图片中识别人类交通工具的分类程序时,如果错误的数据集中包含的是如桌子、椅子等差异较大的事物时,那么将人类交通工具与这些完全无关的项目区分就比较简单。然而,如果数据集还包括运输货物的卡车,或可供任何一种方式使用的小型客车,那么分类任务就变得更具挑战性。评价虚拟筛选方法时亦是如此,即数据集的大小以及活性和非活性分子的多样性也需被考虑在内。最近的方法,如参考文献88所报告的方法,通过构造“最大无偏验证”(maximum unbiased validation, MUV)数据集(见下文)来解决这一问题;然而,早期的研究往往没有充分注意到这一问题47。数据集偏差是虚拟筛选富集性能的一个常见来源,该偏差特别常见于早期的虚拟筛选比较研究中。至于基于配体的虚拟筛选,最近的一项研究发现20大约一半的虚拟筛选性能用简单的每个元素的原子数即可获得(编者注:也就是使用虚拟筛选方法与使用简单的原子数做为打分函数的性能是一致的)。

陷阱d:生物活性测试可比性及其技术

只有在最近才讨论了经适当设计的数据集对比较虚拟筛选算法的重要性,其中最显著的是提出了 “MUV”的概念88。在此项工作中,首次考虑了数据集中活性部分和非活性部分之间的相似分布。另外,这些数据都来自PubChem99,是公开的。其中包括了所有的详细测试方法,通常在其他数据库中不提供。MUV的数据集很大,不包含有一些有问题的化合物,例如那些显示自荧光的化合物,这也是为什么选择它用于随后的基准研究的原因100。然而,尽管如此这个数据集也不可能是完美的,例如其所使用的数据源。虽然PubChem10,76是结构−活性信息的一个重要来源,但保存在那里的数据还没有经过一个独立来源的审查和复核,同时来自不同来源的测试结果可能不具备一致性。有些数据可能是不完整的,或保存的资料可能是完全是错的或与与其他来源不一致。例如,先前所发表的文章中就与HERG分析结果(PubChem AID 376)存在的不一致,其结果与膜片钳的数据相去甚远。虽然这一分歧的部分原因可能是由于检测方法的差异,但这仍是如何处理来自不同来源的生物活性数据的问题(如何组合和如何比较)。当然,如何详细地分析哪些数据来源更值得信赖不在本篇综述的范围内,这一情况突出了由于滥用公共数据库所产生的普遍问题,这些数据库本身不需要对正在储存的数据进行细致的综合处理和质量检查。

在组建虚拟筛选基准数据集时另一个不可避免的分歧在于,特定的靶标、分子量和其他性质的截断值选择,以及用于组建筛选库的相似性/多样性的评估和选择算法。这些参数中有许多是完全主观的(例如什么是构成不同的化学类型或类的定义)。因此,期望出现一个被普遍认为是“理想”的虚拟筛选基准测试集是不现实的。

陷阱e:不良分子(比如反应性/聚集性分子)

用于虚拟筛选的数据库(如商业库)通常会含有一些化合物其具有化学反应性基团或其它性质不理想官能团,这些分子会干扰HTS检测技术,并且引发阳性信号。例如,一些化合物可能是自发荧光的而另一些化合物可能在一定浓度下聚集并产生假应答102。简而言之,这些“不良”分子包括化学反应的、干扰测试的化合物,通常被称为PAINS(泛干扰物质)或高频命中化合物103。还有一些化合物会干扰特定检测类型的读数,例如激酶抑制剂,它会在报告基因检测中导致假阳性读数104。因此,文献报道的很多蛋白的生物活性分子很可能是假阳性化合物, 当训练集中活性化合物数量比非活性化合物数量少的情况下这是比假阴性(实际有活性但被漏选)更为严重的问题。

陷阱f:假定的非活性化合物作为诱饵(Decoy)

已知的(实验证实的)非活性化合物作为阴性对照是有用的,因为一个可靠的拟筛选应当只有少数的非活性化合物出现在命中列表中。然而,在虚拟筛选基准测试研究中有许多诱饵只是推定非活性的,因此,有些人认为阴性的化合物实际上可能是阳性的。当诱饵不仅在物理化学上而且在化学上与活性化合物相似时,这个问题就变得越来越严肃起来了,因为这大大增加了推定的非活性分子实际为活性分子的概率。

Nicholls在2008年83详细讨论了使用四种不同类型诱饵分子的优缺点。对巨大的化学空间中的大量分子而言(大约10^56个),再加上采样器的归纳偏差(inductive bias,参看期望偏差),随机抽样的诱饵是不具有代表性的11。文献还报道了“假假阳性”,当一活性化合物没有被注释为活性,但它同时被预测为有活性,此时会出现“假假阳性”这种情况83。就这一点而言,收集具有类药性的诱饵具有优势的,因为诱饵来源于特征的数据库,他们有可能被认为是没有活性的。因为化学结构有差异、仅具备类药性与理化性质相似的化合物具有同一个靶点的可能性是很小的83

陷阱g:药效团特征权重(Feature weight)

基于配体的虚拟筛选,基于单一查询结构的时候,这个分子的各个部分都是同等重要的。然而就一个具体的靶点而言有些子结构特征(substructure feature)可能不是活性必须的。因此,在可能的情况下,查询结构(query)应该含有最小数量的、与活性相关的特征。药效团查询结构与基于指纹图谱的生物活性模型一样,如果它们是由多个活性分子构建的,并在虚拟筛选之前进行给严格的统计特征选择,则可以对其进行优化,以避免这个问题。除此之外,诸如ROCS105之类的新版3D形状的虚拟筛选的工具,可以编辑查询结构以删除那活性非必须的药效团特征。

3. 与软件选择相关的陷阱

陷阱a:文件输入/输出(I/O)错误和格式不兼容

Kirchmair和Langer等人32提出:当转换不同的分子格式时引入错误是一个比较常见而非常严重的问题。因为分子建模是一个利基市场,并非所有软件都遵循相同的质量控制标准,当由一种文件格式转换为另一种文件格式时,常常会发生信息丢失或更改、甚至同一个软件不同子程序读取同一个格式时也会发生此类问题,这些被扭曲的信息包括了注释到、以及更严重的问题的如原子坐标、手性、杂化状态以及质子化状态等等(见Table 4)。

陷阱b:准备分子

加氢原子和正确的电荷对很多许多虚拟筛选算法的正确性是至关重要的,但是被经常忽略。这并不是一个简单的问题,尤其是用多个软件进行虚拟筛选时,因为有些软件希望用户明确地处理氢原子、电荷、质子化状态等等,而有些软件则以完全无监督的方式自动进行此类预处理32。例如建模工具Sybyl106在计算部分电荷时不能自动的分配形式电荷,而其他的程序例如Vega ZZ107,当需要加上部分电荷时可以很快地执行以上过程。在用MOE进行药效团搜索时,在自动计算部分电荷之前,需要用户分配适当的离子化状态32。Catalyst则不依赖电荷并且可以允许相关片段为可解离子化状态。的确,准备数据库和查询结构的过程中,不同软件在用户控制自由度上差别很大,其中关键步骤有时被遗忘或很少被注意。作为一般的规则,查询结构(query molecule)的准备必须与数据库分子的准备确保一致。

陷阱c:定义药效团特征

在药效团查询结构(即药效团)里里,需要谨慎药定义药效团特征。晶体结构证据表明比如噁唑环上的氮和氧不能同时作为氢键受体(HBA)108。多数情况下,噁唑环中的受体是氮原子。还有许多其他情况下,氧原子不表现氢键受体行为,例如酯键中的醚氧,呋喃环的氧原子等等。然而,并不是所有的计算软件把这些形况都考虑在内。这些内容至少有三个不同相关的化学特征区域与虚拟筛选相关:(1)互变异构体,选用错误的互变异构体可导致归属错误氢键受体或供体,进而导致假阳性或假阴性。(2)离子化状态,生理pH下的化学基团的质子化状态可能计算错误,这主要是因为在通常情况下无法预测特定的酸性或碱性片段在蛋白质的疏水内部是否带电荷。(3)手性,需要对外消旋结构计算所有可能的手性构型的构象32

陷阱d:指纹图谱的选择和算法的实现

基于相似性的虚拟筛选的性能主要取决于描述符的选择。最近刊出了一篇不同描述符检索数据库的性能比较文章40。在该文中,主要提及了四类通用的描述符,circular指纹图谱,带计数的Circular指纹图谱,基于路径(path-based)和键值(keyed)的指纹图谱以及药效团描述符。作者的结论是:相比于特定的参数选择,性能更取决于描述符的选择。在其中的一个原稿作者所进行的还未公布的相关工作中,预先定义的MACCS指纹图谱(基于预先计算的分子片段)与特征图的距离(typed graph distances, TGD,采集原子中心的相互作用,如氢键供体和受体)相比,针对训练和测试集合的两者充分展示了不同的性能。这仅是与这个主题相关的文献中的两个例子98,109-113。要记住某些指纹图谱类型(比如MACCS)仅是部分公开的,在不同程序包中有不同实现方式(可看文献114)。同时,同一个描述符在不同的软件包中有不同的实现方式,虽然在大型数据库处理经平均化后,不同软件的同一个描述符的性能差异似乎并不那么极端40

陷阱e:部分电荷(partial charges)

某些药效团特征需要在特定原子或位点上定域的全部或部分电荷,但由于共振作用精确地分配电荷精确比较困难。举例说明,用Gasteiger电荷计算法去得到单阳离子胍基片段上带正电的氮原子是不可能的,因为+1的形式电荷通过胍基重新分布到整个片段上。更糟的是,中心碳原子可能被赋予+1的形式电荷,但这在化学和生物学上毫无意义。显而易见的解决方法是手工编辑默认的电荷分配,但对于需要完全自动化分子预处理的大型数据库来说,这是不切实际的。在共轭的阳离子和阴离子中心的情况中,比如来自赖氨酸或胍基的阳离子铵盐和来自天冬氨酸或谷氨酸的羧基负离子,形成了盐桥。更明智的方法是不去表示共轭系统,而是将+1和-1的全部电荷分配到对应原子上。这种定域的全电荷的表示法更具生物学意义。而且像MOE之类的虚拟筛选软件将阳离子和阴离子特征,固定在不同的原子上如N和O,并用于定义3D虚拟筛选用的药效团模型。

陷阱f:单独预测与集合预测

对虚拟筛选的相关研究者来说,一个司空见惯的事是用不同的筛选方法从相同的数据库中可筛选到不同的分子。因此,对一个靶标跑多个虚拟筛选方法并合并结果是一种常见的惯例。从以往的虚拟筛选比较研究中得出的最安全的结论之一是,没有一种方法在所有情况下都是最有效的115。由于最好的方法不是先验的,所以推荐的做法是使用多种方法并将结果合并。这种方法在统计学领域已经应用多年。将来自几个略有不同的输入子集的结果“打包到一个公共结果包中”,我们称之为打包115。数据融合(Data fusion)技术,如推进(boosting)116和堆叠(stacking)115,将多个模型结合起来,可以获得比任何一个单一模型更好的预测性能。显然,只有当多个预测器之间存在差异时,将他们的结果进行组合才是有用的,所以这一领域的许多工作都致力于研究将多样性引入模型池的方法40。集成技术在基于QSAR117-119、基于相似性120-123、基于结构的虚拟筛选124,125中越来越普遍。Willett讨论了多种用于合并多个方法结果的聚合技术126,127。

4. 构象抽样与配体及受体柔性

陷阱a:构象覆盖范围

3D虚拟筛选的一个重要挑战是产生一个能够充分覆盖分子构象空间、可管理的构象集。为了达到这个目的,几个关键的参数需要被经验性地测试和优化,包括(1)抽样算法及其参数;(2)张力能量(strain energy)截断值;(3)每个分子的最大构象数;(4)用于删除重复构象的rmsd阈值。训练集必须明显含有几种生物活性构象已知的对照分子,最常见的是X射线共晶或核磁共振研究。遵循良好的建模实践,从训练集中确定的最佳参数也必须在独立的测试集上表现良好; 也就是说,只有当该方法成功检索出不属于训练集的其他控制分子的生物活性构象时,才能假定已建立的方案的有效性和可靠性得到充分证实,从而得到积极验证。一些出版物13,19,23,25,26,38,41专为已经解决这个问题进行讨论,并且已经有一些方法128专门调整了参数来增加识别生物活性构象的几率。然而,许多制药领域感兴趣的分子的巨大构象空间(以10°间隔取样的六个可旋转键的分子将产生366≈2×1010构象)使得这种比较在实践中成为难以克服的挑战。

陷阱b:定义生物活性构象

由于我们对药理学相关构象空间的了解非常有限,所以良好的采样至关重要。再现已知的配体几何是不够的,这仅是代表了配体所有结合构象的极其有限和有偏的采样。大多数配体从未与其主要的靶标形成共结晶,更少见与重要的反靶标(Countertarget,编者注:指hERG等阻碍成药性的靶标)形成共结晶。因此,根据结合位点的几何形状和柔韧性,相同的配体可以以完全不同的构象结合于不同的蛋白质。最重要的是,在生理条件下不能获得晶体结构,这使人们怀疑共结晶配体的构象是否确实是生物活性构象。从蛋白质-配体结构、液相的 NMR分析和计算研究中收集的经验表明,有机小分子在溶液中与其在活性位点中的构象完全不同。此外,在晶体蛋白质复合物中看到的配体构象与游离分子的构象之间存在很大差异。现在广泛接受的是,在与蛋白质结合后,配体可以经历显著的构象变化129

特殊的免叠合的虚拟筛选工具似乎不需要进行构象系综,已经发现仅用单独用一个构象(不一定需要是生物活性构象)就可以显著地富集活性化合物(比如“基于药效团的共相关向量的三维相似性搜索”)130。通常生物活性构象是未知的,除非它已与靶标形成共结晶结构。最小能量构象常用来代替构象系综。然而,一项研究表明,在虚拟筛选时, 提问结构采用“一致”构象(几个活性化合物具有公共形状与药效团的分子构象,即所有构象的最高平均重叠)比能量最低构象具有更好的富集能力131。Wolber和同事91讨论了完全基于形状的虚拟筛选的缺点,并通过增强查询来补偿物理化学和药效团信息的损失。

陷阱c:构象比较

即使假设已知生物活性构象,也会产生关于如何才算命中的问题。换句话说,计算生成的构象需要与生物活性构象多相似才算匹配?确定几何偏差的最常用方法是计算与参比结构相比的RMSD,大多数文献13都认为:RMSD小于0.25-0.3,足以称两个构象“相同”。其他作者提出,对于小有机分子,如果它们的RMSD小于0.1,则可以认为两种构象是相同的19。根据同一课题组的说法,RMSD值在0.1和0.5之间表示匹配地非常好,RMSD在0.5和1.0之间是匹配良好,在1.0和1.5之间为匹配可接受,在1.5和2.0之间属于匹配不那么可接受,而在2和大于2时为根本不匹配 ,至少在生物学背景下是这么样子19,38。此外,文献28,32中报道的RMSD值可能无法直接比较,因为它们可能是使用不同的叠合算法得出的,并且可能基于所有原子或仅基于某些片段而得。用于确定构象相似性的另一个方法是与实际电子密度进行比较31。采用这种方法的动机在于:大多数构象采样算法是根据X射线晶体学得出的实验结构进行评估的这一事实,其中实际可观察到的是电子密度本身而不是原子位置。后者通过优化过程得出,该过程精修原子坐标使得原子坐标与观察到的电子密度的拟合程度最大化。通过直接比较电子密度,作者认为可以避免使用可能错误的中间结构(即,不能很好地拟合实验密度)的风险,就像在PDB中存放大量结构的情况一样。

如上所述,对于免叠合方法,尚不清楚在查询结构和数据库分子中存在生物活性构象是否为成功进行虚拟筛选活动的先决条件。对于使用ROCS的基于形状的虚拟筛选也是如此。最近的一项研究表明132,最简单的设置(即使查询结构仅使用单一构象)通常会产生最佳结果或者最佳结果之一,从而可以对不同的生物活性类型进行高效的虚拟筛选。当然,对该现象的主要关注点是它们的统计强度和普遍性。这种由于错误的原因而产生正确答案的情况总是引起怀疑和进一步的研究。

陷阱d: 构象集的大小

我们不能指望每一个构象生成程序都能够产生所需要的活性构象。因此,一个被经常问到的实际问题是需要通过计算产生多少构象才能确保所需的活构象被包含在其中。在理想情况下,我们会希望尽可能多的去产生构象来保证一个分子的构象覆盖率。然而,对包含上百万分子的化合物库进行彻底地构象搜索需要很大的计算资源,这显然是不可行的。因此,我们需要在计算量和构象采集之间做取舍。但是无论选择多大的计算量来解决这个问题,在我们看来,获得化合物的活性构象是一个可预期的事,但是就虚拟筛选而言这不应该作为评价计算采样算法的主要标准。找到一组已知化合物的活性构象并不能保证相同化合物的其他活性构象也出现在构象集当中。

陷阱e:配体分子的柔性

在许多三维结构搜索系统中一个最常用的做法是对每个分子的存储构象数设一个限制。如前所述,构象搜索产生的数目要根据经验在准确度(与活性构象间的RMSD),另一方面要考虑数据库的大小(构象集中的构象数目),这意味需要在存储空间和计算速度上做平衡。一个分子的可产生的构象数目很大程度上取决于它的大小及其柔性。Griewel及其同事133证明少于九根旋转键的分子,在产生20个构象时平均准确度就会小于1Å,然而,对于柔性更大的分子来说显然需要产生更多的构象。如果数据库中的每一个分子都只有数量可控的旋转键,统一设定限制是可取的。在最近的一项研究中,应用五个构象就可以得到较高的富集分数,作者84指出他们的结果依赖于相应的蛋白靶标。然而,当数据库中包含的分子在柔性或拓扑性质有较大差异时情况就明显不同了。这种情况是一个很有挑战性的问题,因为一些构象搜索方法只对特定类型的分子有较好的效果。例如,仅有少数几种方法可以用来处理包含有构象限制的体系比如大环体系,而这种体系对于成药来说是很有吸引力的因为它们较少受到知识产权限制的影响。两种在此方面给予较多考虑的相关方法是随机邻近嵌入(stochastic proximity embedding, SPE)方法和自组织叠合方法(self-organizing superposition, SOS)134。因为通常来说一个数据库当中的构象搜索只通过一种方法来进行,所以这种方法能否很好地处理所有类型的分子是很重要的。不管采用哪一种方法,我们需要在一个很大的多构象集合中选出许多的代表性构象,这个任务可以通过构象聚类来完成41

陷阱f:高能构象

构象采集的覆盖率是很重要的,但能量较高或理论上不现实的构象也可能通过虚拟筛选得到。一些构象采集方法不采用能量最小化去优化结果排序,这导致高能构象可能被当做最终结果输出。如果这种几何上的不合理在数据库构建时不被消除或者在进行虚拟筛选时没有被识别出来,筛选结果中就会出现大量的假阳性。这个问题通常在三维药效团搜索过程中被进一步放大,因为能够匹配药效团三维空间排列的高能构象都会被挑选出来作为最终结果。据报道,70%的配体分子与受体的结合时其张力能(Strain Energy)低于3 kcal/mol135, 这个规律是明确且具有限制性意义的,因此可用来过滤掉一些不相关构象。

陷阱g:靶标柔性

不仅配体分子具有柔性,生物靶标也同样具有柔性。蛋白的柔性或许是虚拟筛选中考虑最少的一个方面,这主要是因为计算量及相应模型构建的复杂性。蛋白运动的时间尺度范围从飞秒到秒,它们提供了重要而具体的信息136。虽然蛋白柔性在一些对接软件中被给予考虑,但在分子数目巨大的虚拟筛选中却很少应用。另一个问题是不能捕获掌控靶标识别的热力学特点,比如一些情况下靶标间的相互作用不能被很好的理解(例如结合位点的柔性没有给予考虑)或者是软件没有提供合适的算法15,30

陷阱h:配体重叠假设

在基于三维结构形状的虚拟筛选中,大多数程序都试图使查询结构(query)与数据库中的分子达到最大的重叠。然而,就我们所知对同一个蛋白的活性位点结合不同分子的X-衍射单晶信息来说这种重叠在有些时候并不是很大。实际上,不同的配体分子可能结合在同一蛋白的不同区域,甚至是在同一结合位点,它们之间在三维结构上的重叠远比基于形状匹配的虚拟筛选工具所假设的要低,这一现象导致了许多假阴性结果的产生。分子对接可以识别以完全不同的结合方式在活性位点里结合的分子,而这对于基于配体的虚拟筛选来讲往往是做不到的。

陷阱i:阳性对照化合物的漏选

这个陷阱的产生通常与由于在第一步采取过于严格的截断值所导致的已知的阳性对照分子不能被召回有关,这在应用非常严格的药效团截断值进行虚拟筛选时会对筛选结果产生显著的影响。因此,需要根据相关参数的设定来适当地设定选择性与灵敏度比值(selectivity/sensitivity)的截断值,通过这种方式可以在虚拟筛选计算命中率时得到合适的基准测试统计学结果。

结论

本篇综述总结了虚拟筛选中常见的一系列陷阱。与实验进行的筛选一样,虚拟筛选可以在全自动和无监督的模式下进行。在安装了合适的软件之后,人们可以对任何可设想的化合物数据库及蛋白靶标几乎毫不费力地进行虚拟筛选工作,这在意味着机遇的同时也意味着危险。正如我们所希望去阐述的那样,虚拟筛选需要很小心的去准备数据库,谨慎的进行参数的选择,并根据不同的目的间进行合理折衷。
基准测试研究广泛地用于识别算法和参数设置。这些研究的价值及其结果的可信程度可以因为数据的可获得性及相应算法的可获得性而得到提高。一系列的政府资助强制数据集托管于公共存储数据库并促进了开源软件的利用,现在的数据集比以往任何时候都要大,包含了更广泛的生物活性类型,并且消除了一些早期基准测试集合中的数据偏向性。虽然现在和未来的虚拟筛选都是一种概率游戏,它的成功率却可以通过仔细地规划以及对细节地关注而大大提高。毕竟,机会总是留给有准备的人。