在基于配体3D相似性的虚拟筛选中使用Tversky

摘要：本文介绍了基于配体3D相似性计算两种主要方法Tanimoto与Tversky，并将ROCS Tversky相似性方法与文献报道的9种其它基于配体3D相似性方法与深度学习3D相似性方法在DUD-E数据集上的虚拟筛选性能表现进行了比较。结果表明ROCS Tversky相似性方法在总体虚拟筛选性能（ROC AUC）与早期富集能力（EF^1%）上均表现最优，并建议不妨大胆地在虚拟筛选中使用Tversky相似性方法。

肖高铿/2023-03-16

前言

测量分子相似性或不相似性有两个基本组成部分：分子特征（如形状和颜色）的表示和用于量化两种表示之间相似程度的相似性系数。不同的相似性系数量化了不同类型的结构相似性。在基于形状的相似性计算中有三个基本术语：

selfA: Self overlap or self color score for molecule A
selfB: Self overlap or self color score for molecule B
overlapAB: Overlap or color score between molecules A and B

基于配体3D形状的虚拟筛选方法ROCS采用了两方法来衡量两个分子之间的3D相似性程度：Tanimoto系数与Tversky系数¹。

Tanimoto系数计算公式如下:

$$Tanimoto_{A,B}={overlapAB \over {selfA + selfB -overlapAB}}$$

Tanimoto相似度计算是对称的，对于形状和颜色，其值始终在0.0和1.0之间。

Tversky系数计算公式如下:

$$Tversky_{A,B}={overlapAB \over {\alpha*selfA + \beta*selfB}}$$

其中α+β=1，ROCS默认α或β=0.95以使得Tversky相似度计算是不对称的。当参数α=β=0.5时，其计算是对称的，并且在一定程度上与Tanimoto相似度计算是相同的。α对参比分子的贡献进行加权，α越大，参比分子的自叠合（self overlap）权重越大；β对数据库分子的贡献进行加权，β越大，数据库分子的自叠合（self overlap）权重越大。

与Tanimoto相似性一样，对于形状，Tversky相似性的值始终在0.0和1.0之间。然而，对于颜色（color）来说，这可能并不总是如此。根据分子A和B之间的颜色原子的数量和类型，|overlapAB|有可能比|selfA|大，并且随着α值的变化，有时会导致Tversky_A,B大于1.0。

ROCS计算得到两个Tversky值：1）RefTversky，以参比分子为主Self overlap，也就是α=0.95，偏向参比分子；2）FitTversky，以数据库分子为主self overlap，也就是β=0.95，偏向数据库分子。

相应的，ROCS计算会得到三种Combo打分：

TanimotoCombo = ShapeTanimoto + ColorTanimoto
RefTverskyCombo = RefTversky + RefColorTversky
FitTverskyCombo = FitTversky + FitColorTversky

虽然人们没有达成一致认为一种方法优于另一种方法，但是已有的研究证明Tversky方法在虚拟筛选性能上比Tanimoto方法有很大的提升^2,3。

目前已经有众多的验证性文献报道了ROCS的虚拟筛选性能，比如Kearnes³、Koes⁴与Jiang等人⁵就用DUD-E等基准数据集系统地对ROCS虚拟筛选性能进行了评估并与其它基于配体3D相似性的方法进行了比较。尽管如此，大部分虚拟筛选方法的性能评估与比较仅针对Tanimoto方法，而对Tversky方法的性能与比较研究则很少见。

本文的目的是再次强调Tversky方法——尤其是RefTverskyCombo方法——的虚拟筛选性能，并引用Jiang⁵与郑行⁶等人报道的基于配体3D相似性虚拟筛选方法在DUD-E数据集上的性能表现进行了比较。

结果

最近，Jiang等人⁵对9种基于配体的3D相似性方法在DUD-E数据集上进行了比较，郑行⁶等人则公开了采用Uni-Mol深度学习方法进行基于配体3D相似性虚拟筛选的性能，这些数据汇总于表1。

表1. ROCS_TverskyComboScore与其它3D相似性方法在DUD-E数据集上的虚拟筛选性能比较

方法	ROC AUC	EF^1%	EF^5%	EF^10%
ROCS_TverskyComboScore^a	0.756	25.3	8.4	5.0
ROCS_ComboScore^b	0.598	12.44	4.33	2.80
ROCS_ColorScore^b	0.620	13.20	4.76	3.09
ROCS_ShapeTanimoto^b	0.547	6.89	2.93	2.07
Phase Shape_Mmod^b	0.677	13.73	5.06	3.34
Phase Shape_Ele^b	0.674	14.57	5.50	3.57
Phase Shape_Pharm^b	0.692	16.03	6.00	3.84
Shape-it^b	0.541	4.73	2.50	1.91
Align-it^b	0.659	12.44	4.87	3.21
ShaEP_best^b	0.658	10.28	4.32	2.99
ShaEP_shape^b	0.625	8.86	3.82	2.76
ShaEP_ESP^b	0.606	6.36	3.03	2.25
SHAFTS^b	0.733	19.13	6.97	4.37
WEGA^b	0.645	12.14	4.67	3.16
LIGSIFT^b	0.718	16.22	5.79	3.78
LS-align^b	0.699	15.88	5.74	3.66
Uni-Mol^c	–	20.40	8.48	5.59

a：肖高铿⁷；b：Jiang等人⁵；c：郑行⁶

可以发现，采用Tversky（ α=0.95）相似性方法的ROCS TverskyComboScore的虚拟筛选总体性能最佳，在DUD-E 102个靶标上的平均ROC AUC=0.756，优于其它所有的方法，如图1所示。

图1. ROCS TverskyComboScore与其它9种3D相似性方法在DUD-E数据集上虚拟筛选总体性能（ROC AUC）比较

同样，采用Tversky（α=0.95）相似性方法的ROCS TverskyComboScore的虚拟筛选方法表现出了最强的早期富集能力。在DUD-E 102个靶标上，富集因子EF^1%均值=25.3，优于所有的其它方法，并且大幅领先于第二名Uni-Mol（EF^1%=20）与第三名SHAFTS（EF^1%=19.13），如图2所示。

图2. ROCS TverskyComboScore与其它9种3D相似性方法在DUD-E数据集上虚拟筛选富集因子EF(Top 1%,5%,10%)的比较

总的来说，采用Tversky（α=0.95）相似性方法的ROCS TverskyComboScore不仅在虚拟筛选总体性能上优于其它基于配体3D相似性方法与深度学习方法，而且在早期富集能力上也优于其它方法。

方法

详细的ROCS RefTversky相似性计算方法请参见前文⁷。

结论

总的来说，采用Tversky（α=0.95，即RefTversky）相似性方法的ROCS，不仅在虚拟筛选总体性能（ROC AUC）上优于其它基于配体3D相似性方法与深度学习方法，而且在早期富集能力（EF^1%）上也优于其它方法，敬请大胆地在基于配体的3D相似性虚拟筛选中使用Tversky相似性打分。

文献

ROCS. https://docs.eyesopen.com/applications/rocs/theory/measure_similarity.html
Horvath, D.; Marcou, G.; Varnek, A. Do Not Hesitate to Use Tversky—and Other Hints for Successful Active Analogue Searches with Feature Count Descriptors. J. Chem. Inf. Model. 2013, 53 (7), 1543–1562. https://doi.org/10.1021/ci400106g.
Kearnes, S.; Pande, V. ROCS-Derived Features for Virtual Screening. J. Comput. Aided. Mol. Des. 2016, 30 (8), 609–617. https://doi.org/10.1007/s10822-016-9959-3.
Koes, D. R.; Camacho, C. J. Shape-Based Virtual Screening with Volumetric Aligned Molecular Shapes. J. Comput. Chem. 2014, 35 (25), 1824–1834. https://doi.org/10.1002/jcc.23690.
Jiang, Z.; Xu, J.; Yan, A.; Wang, L. A Comprehensive Comparative Assessment of 3D Molecular Similarity Tools in Ligand-Based Virtual Screening. Brief. Bioinform. 2021, 22 (6), 1–17. https://doi.org/10.1093/bib/bbab231.
郑行. 分子3D预训练模型Uni-Mol在药物研发中的应用｜CADD领袖论坛第3期. https://www.bilibili.com/video/BV1Wd4y137q1
肖高铿. ROCS——用形状技术进行高效的虚拟筛选. 墨灵格的博客. 2020-03-01. http://blog.molcalx.com.cn/2022/03/15/rocs.html