摘要:本文通过比较高通量筛选(HTS)与虚拟筛选(VS),讨论了分子对接虚拟筛选产生假阳性与假阴性的原因, 发现不合适的分子内能是假阳性的一个主要原因;通过比较HTS与VS的命中化合物,发现两者可以分别发现不同的化合物,因此两者是互补的;通过对虚拟筛选假阴性化合物的复合物结构分析发现,发现不适合的蛋白结合位点是假阴性的一个重要原因;本文还比较了分子对接与2D相似性的虚拟筛选之间的关系,发现2D相似性方法不能发现竞争性抑制剂与基于结构的方法可以, 由此说明虚拟筛选不同于二维结构相似的方法,可以找到结构新颖的,可逆的竞争性抑制剂。

作者:肖高铿
联系:gkxiao@molcalx.com

一. 前言

虚拟筛选(VirtualScreening,VS)与高通量筛选(Highthroughput screen,HTS)都可以对几百万化合物进行快速的评估以发现潜在的先导化合物。所不同的是,HTS需要对全部的化合物进行测试,而虚拟筛选仅需对少量优选的化合物进行生物学测试。分子对接(docking)是最为大众所熟知的一种虚拟筛选方法。众所周知,对接计算会因为构象采集不足、打分函数的近似处理而出现化合物漏选,这时假阴性出现;如果活性化合物得分靠后,这时假阳性出现。

现在问题出来了,虚拟筛选的假阳性、假阴性到底有多大?什么情况下出现?如何识别?为了回答这个问题,需要针对同一个靶点、同一个数据库综合地比较分子对接与HTS、系统地分析全部活性化合物的作用机制才能回答这些问题。

来自UCSF的Brian K. Shoichet等(Ferreira, R. S., A. Simeonov, et al.,2010)人设计了实验来回答上面的问题:针对同一个巯基蛋白酶Cruzain以及同一个数据库MLSMR library(包含197861化合物),分别用qHTS与分子对接方法进行筛选,比较两者结果,回答了下面几个问题:

  1. HTS与分子对接都有什么样的假阳性分子?产生假阳性的原因是什么?
  2. 要回答这个问题,需要对基于结构的虚拟筛选与HTS进行一个有意义的比较。

  3. 分子对接的假阴性分子是什么样子?为什么这些分子会被漏选?
  4. 将有活性的化合物与Cruzain培养复合物晶体,就可以在原子水平解答这个问题。

  5. 到目前为止,Cruzain已知的抑制剂大部分都是不可逆、共价结合的化合物。有可能发现结构新颖、可逆的Cruzain抑制剂吗?
  6. 是否可以可靠地将真正的抑制剂富集在得分排名非常靠前的化合物中?

二. 虚拟筛选方法

根据Ferreira,R. S., A. Simeonov等人(2010)的报道,其虚拟筛选流程如下:
靶点:Cruzain,一种巯基蛋白酶
数据库:MLSMR数据库,含197861化合物
虚拟筛选方法:Cruzain的晶体结构(PDB code :1AIM)去水、去配体,加标准H原子。MLSMR数据库用ZINC数据库准备流程准备。虚拟筛选用DOCK3.5.54进行对接计算。Cruzain结构保持刚性,对接时考虑小分子的柔性,以预计算构象库的方式处理。每个分子计算时评估了大约600个构象、平均18735的取向(orientation,平均每个分子的configuration不止1000万),用van der Walls与静电互补性进行打分。该打分分别分用AMBER与DelPhi的势函数完成,并计算配体的去溶剂化效应加以纠正。得分最佳的pose用于数据库化合物排序的标准。

三. 结果及虚拟筛选假阳性、假阴性产生的原因分析

1. 虚拟筛选的假阳性问题

取虚拟筛选打分最高前198个化合物进行活性测试,假阳性与命中结果见表1。

表1,虚拟筛选的结果

Virtual Screening 198 top ranking compounds (100%)
False positive 193 97.5%
1.Conformer focusing 106 53.5%
High internal energy conformations 101 51.0%
Floppy compounds 5 2.5%
2.High molecular weight, unfulfilled polar groups 68 34.3%
3.Others 19 9.6%
Noncovalent competitive 5 2.5%
1.substrates 3 1.5%
2.Inhibitors 2 1.0%


如表1所示,分子对接的假阳性率为97.5%。为了进一步理解假阳性,肉眼观察了198个得分最高化合物的假阳性化合物,发现假阳性化合物有两个主要特征:分子含有多个极性基团,但是这些极性基团在活性位点里并不与Cruzain发生相互作用(大约占34%);太高的分子内能(大约占53.5%)。

假阳性的原因

图1,假阳性产生的原因及其所占的比例与数量

上述现象反应了分子对接(在这里是DOCK3.5.54)的共性问题。有34%的假阳性化合物为分子量大、极性基团多的化合物,这些极性基团并没有参与到与Cruzain的相互作用,这可能是因为静电相互作用获得的正面效应与配体去溶剂化效应的损耗难以平衡造成。更为普遍的是,得分最高的化合物里有53.5%的假阳性,这些假阳性源自高能构象问题。也就是DOCK3.5.54可能会选中一个高能构象但是相互作用能打分很好的化合物。这反映了对接程序的打分函数没有考虑分子内能这一问题。构建对接用数据库时仅包含了一个能量最低的构象,包含了最低能构象特定能量窗之内的全部分子,这些构象之间的内能差异没有在打分函数的最后一步加以考虑。还有大约2.5%的假阳性具有高度柔性的取代基,这意味着打分函数对结合时熵的损失没有采取惩罚所致。

2. 虚拟筛选的假阴性问题

化合物27为活性化合物,但是对接的虚拟筛选却将其漏选:在197861化合物里排名180479,对接计算没能将这个化合物打分排名靠前。将化合物27与Cruzain培养复合物单晶,通过对接预测的结合模式与晶体解释的结合模式比较,可以了解产生这个假阴性的原因。

一般情况下,虚拟筛选失败的可能原因是为采样不足或打分函数性能差。采样不足可能两个原因:构象数据库里没有合理的构象或者orientation采样不充分。将化合物27用OpenEye的OMEGA生成其600个构象,用DOCK3.5.54进行刚性对接,发现打分好的pose其与晶体结构的RMSD可以低至1.4埃。这说明对接的采样本身没有问题。

接下来考虑一下打分函数的因素。DOCK3.5.54的打分函数包含三个成份:范德华相互作用,静电相互作用,配体的去溶剂化惩罚项。

虚拟筛选假阳性与假阴性的产生原因: 图2

图2,虚拟筛选用的Cruzain口袋(灰色)与化合物27/Cruzain复合物口袋(绿色)比较。除了CYS25与GLN159有点小差别之外,其余的地方基本一样。

如图1所示,比较对接用的Cruzain结合口袋与化合物27/Cruzain复合物口袋,它们之间差异很小。将化合物27/Cruzain复合物单晶解释的构象用于打分,对接打分会发现,前后打分发生很大的变化,如表2所示。

表2,对接用Cruzain结合口袋与化合物27/Cruzain复合物结合口袋对接结果及其排名比较

1AIM(Virtual screen) 27/Cruzain 复合物
Final score -8.5 -35.5
van der Walls interaction -8.4 -22.2
Electrostatic interaction + ligand desolvation -0.1 -13.3
Rank 180479/197861 28521/197861

这表明,即使Cruzain活性位点里只有很小的构象变化,也会给对化合物的对接打分与排名产生非常大的影响。

3. 虚拟筛选能否找到新颖、可逆、竞争性抑制剂?

到目前为止,Cruzain已知的抑制剂大部分都是不可逆、共价结合的化合物。用128个已知的活性化合物为模板,以ECFP4与Daylight指纹图谱搜寻MLSMR数据库,结果ECFP4指纹图谱法命中961化合物、Daylight指纹图谱法命中154化合物。虽然这些命中的化合物中有些是不可逆并且非专一的抑制剂,但是没有一个是竞争性抑制剂。即使将相似性条件放宽也命中不了。在本研究中,对接虚拟筛选法找到了2类HTS没有识别出来的可逆竞争性抑制剂。这说明,虚拟筛选不同于二维结构相似的方法,可以找到结构新颖的,可逆的竞争性抑制剂。

4. 是否可以可靠地将真正的抑制剂富集在得分排名非常靠前的化合物中?

在本研究中,在HTS发现的非共价结合竞争性抑制剂中,其中有一半的抑制剂骨架类型富集于对接的前0.1%,虚拟筛选确实可以将真正的抑制剂富集在得分排名非常靠前的化合物中。

5. HTS与虚拟筛选是否互补?

如图3所示,在本研究中分子对接与HTS发现了各自结构类型新颖的竞争性抑制剂,所以互补性是显而易见的。

虚拟筛选假阳性与假阴性产生的原因:图3

图3,HTS与VS各自发现结构新颖的竞争性抑制剂

四. 文献

Ferreira, R. S., A. Simeonov,et al. (2010). “Complementarity between a docking and a high-throughputscreen in discovering new cruzain inhibitors.” J Med Chem 53(13):4891-4905.