Lead Finder 分子对接性能测试

摘要：本文用CASF-2013数据集测试了Lead Finder的采样性能与打分性能。结果表明：重复进行3次计算，取打分最高前20、10、3个结果，dG Score的对接成功率分别为78.1%、68.2%、58.3%；而打分最高pose的成功率43.2%。本文还考察了Lead Finder三种打分函数的打分性能，发现dG Score预测值与实验值的Pearson系数为0.66，具有强的相关。dG Score打分函数的排序能力成功率为56.9%，仅次于并列第一的X-Score与ChemPLP@GOLD（成功率为58.5%）。

肖高铿 2018-05-24
更新：2018-06-02,添加了CASF-2013打分函数的排序能力

一. 测试目的

Lead Finder是一个比较新的软件，本文用CASF-2013数据集测试了Lead Finder的采样性能与打分性能。

二. 测试方法

1. 数据集

CASF2013是中国科学院上海有机研究所王仁小课题组开发的基准数据集^1,2，共含195个复合物结构、覆盖65种药物靶标，广泛应用于分子对接软件的采样、打分以及虚拟筛选性能评估。

2. 软件

Lead Finder version 1804 build 1, 24 April 2018

3. 结构准备

蛋白结构：直接用CASF2013提供的protein.mol2文件。

配体3D结构: 用Openbabel将CASF2013数据集中的ligand.mol2转化为SMILES格式，再用CORINA从SMILES计算生成3D结构,未经处理直接给Lead Finder对接计算。

4. 格点文件（grid）生成

Lead Finder对接计算需要用能量的格点文件，直接从CASF2013的蛋白mol2文件与配体mol2文件用Lead Finder计算而得。典型的grid文件用生成命令如下：

1 2	leadfinder --grid-only --protein=$10gs_protein.mol2 --ligand-reference=10gs_ligand.mol2 --save-grid=protein.grid

其中10gs_protein.mol2与10gs_ligand.mol2是SCAF2013准备现成的蛋白、配体结构。

5. 分子对接计算

Lead Finder采用遗传算法，每次计算结果都不一样，因此重复计算三次，每次最多输出20个pose，合并三次计算结果。每个计算采用xp模式，并打开rta、rte、rtc选项,典型的算例如下：

1 2	leadfinder -g protein.grid --ligand-reference=10gs_ligand.mol2 -li ligand.sdf -o lf_pose_1.sdf -l lf_report_1.log -rta -rtc all -rte -mp 20 --output-tabular=lf_score_1.csv --verbose

其中protein.grid是上一步生成的格点文件，用来打分用；10gs_ligand.mol2是参比分子，用来计算对接pose的RMS；ligand.sdf是由CORINA生成的3D结构文件；输出文件lf_score_1.csv包含了每个pose的打分值、各个分值的成分、RMS值等等，这些值可以用于性能评估。

三. 结果

1. 对接计算引擎的采样性能（Sampleing power）评估

采样性能评估对接计算引擎能否产生正确的pose，将计算引擎产生的pose与蛋白-配体复合物结构中的那个pose比较并计算RMSD(root mean square deviation)，如果RMSD小于2.0(Å)，那么就认为对接计算成功。因为打分最高的那个pose(the top score pose)不一定是对接最佳的那个(the best pose)，因此采样性能评估分别考察了打分最高pose的对接成功率与最佳pose的对接成功率。

将打分最高20、10、3、1个pose与复合物晶体结构里的配体相比，考察最小的RMS是否小于等于2Å：是则认为对接计算成功、否则认为失败。

因为1zea、3ag9与3uri等三个复合物结构配体的柔性键数量超出Lead Finder允许的最大值而没有被Lead Finder进行对接计算，所以对其它的192个配体进行性能评估。

图1. Lead Finder的对接计算成功率

结果如图1所示，在78.1%算例中，dG Score可以在打分最高的20个pose里包含了一个正确的pose；VS score与Rank score也表现出相似的性能，成功率分别为75.5%与75.0%。如果仅考察打分最佳的一个pose，则成功率大大降低：dG score、VS score与Rank score的成功率分别为43.2%、45.3%以及39.5%。所有的对接算法都存在打分最高的pose不是对的pose这个问题，在《十种分子对接软件的性能评估》第3.1节已经有讨论。因此，如何将正确pose从打分最高前的20个里挑出是我们面临的主要挑战。

Alhossary A等人³在开发分子对接软件QuickVina2的时候，用CASF2013研究了QuickVina2、AutoDock Vina、GOLD 5.2、DOCK 6的性能, 结果见图1。显而易见，采用打分靠前的20或10个POSE时，Lead Finder的成功率优于QuickVina,VINA,DOCK6与GOLD 5.2。

同时，我们考察了柔性键数量与成功率之间的关系：图2（右）是dG Score打分最优20个pose里，最低rms与柔性键数量(Rotors，OpenBabel 2.4计算)的关系。

图2. 数据集柔性键数量分布以及dG Score打分前20最佳pose的RMS分布

用第三方打分函数提高打分Top 3的成功率

通过对CASF-2013基准测试集的验证，我们发现Lead Finder的对接引擎具有非常强的采样性能：在打分最高的20、10个pose里，富集到正确pose的算例分别占78%与70%。也就是采集打分最高的20个、10个pose，best pose的成功率分别为78%与70%。在Lead Finder采样的基础上，用ChemPLP 打分函数可以提高Lead Finder在Top 1,2,3时识别正确pose的性能，对接性能测试也证实ChemPLP优异的性能（参见：打分函数的对接性能评估部分）。下图S1展示了ChemPLP对Lead Finder生成的pose重新打分后的对接性能。可以发现Top 1,2与3的对接性能大幅提高了。

图S1. Lead Finder用ChemPLP打分函数重新打分后的Top 1,2,3,10,20的成功率

从图S1可知，ChemPLP对Lead Finder对接结果重新打分，有51%算例的打分最佳pose是正确的pose。

2. 打分函数的打分性能（Scoring power）评估

打分性能(Scoring power)是指打分函数预测的结合打分与实验值的线性相关性²。采用score only模式，计算蛋白与共晶配体的结合自由能，将Lead Finder三种打分函数dG Score、VS Score与Rank Score的计算值与实验值进行比较，评估线性相关性。

Lead Finder完成了对195个复合物的计算，194个复合物获得计算结果并用于统计处理。Lead Finder的三种打分函数dG Score,VS Score与Rank Score的打分值散点图分别见图3、4、5，可以让我们有个直观的印象：直觉是dG Score的打分值与实验值有明显的相关性，而VS Score与Rank Score的散点图更加离散。

图3. dG Score VS 实验值（R²=0.4334）

图4. VS Score VS 实验值（R²=0.3146）

图5. Rank Score VS 实验值（R²=0.23）

Lead Finder三种打分函数dG、VS与Rank Score打分值与实验值的线性回归系数R²与Pearson相关性系数分别见下表1。

Table 1. Lead Finder不同打分函数计算值与实验值的线性回归系数与Pearson相关性系数

Items	N	R²	Pearson相关性系数
dG Score	194	0.4334	0.660
VS Score	194	0.3146	0.561
Rank Score	194	0.23	0.480

如表1所示，三个打分函数的预测值与实验值的线性回归系数R²都不高，但是从图3的dG score VS 实验值散点图看着有相关性，实际上Pearson相关性系数为0.66，证实确实具有强相关。Lead Finder的dG Score打分函数为预测结合亲和力而设计，其Pearson系数为0.66也要优于用样数据集测试的其它软件²，见表2。

Table 2. 不同打分函数计算值与实验值的Pearson相关性系数比较，除了dG、VS与Rank score外，均引用自Li Y(2014)²

Docking Score	N	Pearson相关性系数
dG Score	194	0.660
X-Score	195	0.614
ΔSAS	195	0.606
ChemScore@SYBYL	195	0.592
ChemPLP@GOLD	195	0.579
PLP1@DS	195	0.568
VS Score	194	0.561
G-Score@SYBYL	195	0.558
ASP@GOLD	195	0.556
ASE@MOE	195	0.544
ChemScore@GOLD	189	0.536
D-Score@SYBYL	195	0.526
Alpha-HB@MOE	195	0.511
LUDI3@DS	195	0.487
GOLDScore@GOLD	189	0.483
Affinity-dG@MOE	195	0.482
Rank Score	194	0.480
LigScore2@DS	190	0.456
GlideScore-SP	169	0.452
Jain@DS	114	0.408
PMF@DS	194	0.364
GlideScore-XP	164	0.277
London-dG@MOE	195	0.242
PMF@SYBYL	191	0.221

由表2可知，就CASF2013的测试集而言，Lead Finder的dG Score表现出最好的实验值与计算值相关性，下图6会看着更清楚一点。

图6. 不同打分函数预测值与实验值Pearson系数比较

在Wang Z(2016)⁴等人对10种分子对接的比较研究中也考察了打分性能（见：十种分子对接软件的性能评估）。不同于CASF2013方法的是，Wang Z等人用最优的打分值（而不是实验pose的打分值）与实验数据比较。结果表明，10种对接软件的打分值与实验值Pearson系数均小于0.6，这与Li Y(2014)的研究结果²基本一致：计算值与实验值具有强相关的打分函数非常少。X-Score与Lead Finder的dG Score是少有的、具有强相关的打分函数。

3. 打分函数的排序性能(Ranking power)评估

在CASF-2013数据集里，覆盖了65个靶标，每个靶标有3个蛋白-配体复合物结构，这三个配体的结合亲合力覆盖了高中低三个档次。如果打分函数可以正确地区分高中低三档次，则计1分,65个靶标则满分65分。成功率为得分除以65。

Table 3. 不同打分函数的排序能力，除了dG、VS与Rank score外，均引用自Li Y(2014)²

Docking Score	Success Rate%(High-level)
X-Score	58.5
ChemPLP@GOLD	58.5
dG Score	56.9
PLP2@DS	55.4
GOLDScore@GOLD	55.4
Δ_VINARF₂₀⁶	55
VS Score	53.8
ChemScore@SYBYL	53.8
Affinity-dG@MOE	53.8
G-Score@SYBYL	52.3
Alpha-HB@MOE	52.3
LUDI1@DS	52.3
LigScore1@DS	52.3
ΔSAS	49.2
D-Score@SYBYL	49.2
AutoDock VINA⁶	49
ASP@GOLD	47.7
ChemScore@GOLD	46.2
Rank Score	43.1
GlideScore-SP	43.1
PMF@DS	43.1
London-dG@MOE	43.1
PMF@SYBYL	43.1
Jain@DS	41.5
ASE@MOE	40.0
GlideScore-XP	35.4

如表3所示，高级排序能力X-Score与ChemPLP@GOLD并列第一（成功率58.5%）；dG Score排名第二（成功率56.9%）; 接着是PLP2@DS与GOLDScore@GOLD并列第三（成功率55.4%）。

4. 打分函数的对接性能(Docking power)评估

打分函数的对接性能(Docking power)是指打分函数将正确pose从decoy pose里识别出来的能力，结果见下表4。在CASF-2013的基础上，我们还计算了Lead Finder的dG score，VS score与rank score以及PLANTS的ChemPLP score⁵。我们发现，Lead Finder的打分函数识别正确pose的性能较差，而ChemPLP对接性能优于绝大部分打分函数。将ChemPLP与Lead Finder组合，可以大幅提高Lead Finder在top 1、2、3 score的虚拟筛选性能。

Table 4. 不同分子对接软件打分函数的对接性能（点击表头可排序）

四. 文献

Li, Y.; Liu, Z.; Li, J.; Han, L.; Liu, J.; Zhao, Z.; Wang, R. Comparative Assessment of Scoring Functions on an Updated Benchmark: 1. Compilation of the Test Set. J. Chem. Inf. Model. 2014, 54 (6), 1700–1716.
Li, Y.; Han, L.; Liu, Z.; Wang, R. Comparative Assessment of Scoring Functions on an Updated Benchmark: 2. Evaluation Methods and General Results. J. Chem. Inf. Model. 2014, 54 (6), 1717–1736.
Alhossary, A.; Handoko, S. D.; Mu, Y.; Kwoh, C. K. Fast, Accurate, and Reliable Molecular Docking with QuickVina 2. Bioinformatics 2015, 31 (13), 2214–2216.
Wang, Z.; Sun, H.; Yao, X.; Li, D.; Xu, L.; Li, Y.; Tian, S.; Hou, T. Comprehensive Evaluation of Ten Docking Programs on a Diverse Set of Protein–ligand Complexes: The Prediction Accuracy of Sampling Power and Scoring Power. Phys. Chem. Chem. Phys. 2016, 18 (18), 12964–12975.
Korb, O.; Stützle, T.; Exner, T. E. Empirical Scoring Functions for Advanced Protein-Ligand Docking with PLANTS. J. Chem. Inf. Model. 2009, 49 (1), 84–96.
Wang C, Zhang Y. Improving scoring-docking-screening powers of protein–ligand scoring functions using random forest. J Comput Chem. 2017;38(3):169-177. doi:10.1002/jcc.24667.

Lead Finder 分子对接性能测试

一. 测试目的