摘要:本文介绍了基于配体3D相似性计算两种主要方法Tanimoto与Tversky,并将ROCS Tversky相似性方法与文献报道的9种其它基于配体3D相似性方法与深度学习3D相似性方法在DUD-E数据集上的虚拟筛选性能表现进行了比较。结果表明ROCS Tversky相似性方法在总体虚拟筛选性能(ROC AUC)与早期富集能力(EF1%)上均表现最优,并建议不妨大胆地在虚拟筛选中使用Tversky相似性方法。

肖高铿/2023-03-16

前言

测量分子相似性或不相似性有两个基本组成部分:分子特征(如形状和颜色)的表示和用于量化两种表示之间相似程度的相似性系数。不同的相似性系数量化了不同类型的结构相似性。在基于形状的相似性计算中有三个基本术语:

  • selfA: Self overlap or self color score for molecule A
  • selfB: Self overlap or self color score for molecule B
  • overlapAB: Overlap or color score between molecules A and B

基于配体3D形状的虚拟筛选方法ROCS采用了两方法来衡量两个分子之间的3D相似性程度:Tanimoto系数与Tversky系数1

Tanimoto系数计算公式如下:

$$Tanimoto_{A,B}={overlapAB \over {selfA + selfB -overlapAB}}$$

Tanimoto相似度计算是对称的,对于形状和颜色,其值始终在0.0和1.0之间。

Tversky系数计算公式如下:

$$Tversky_{A,B}={overlapAB \over {\alpha*selfA + \beta*selfB}}$$

其中α+β=1,ROCS默认α或β=0.95以使得Tversky相似度计算是不对称的。当参数α=β=0.5时,其计算是对称的,并且在一定程度上与Tanimoto相似度计算是相同的。α对参比分子的贡献进行加权,α越大,参比分子的自叠合(self overlap)权重越大;β对数据库分子的贡献进行加权,β越大,数据库分子的自叠合(self overlap)权重越大。

与Tanimoto相似性一样,对于形状,Tversky相似性的值始终在0.0和1.0之间。然而,对于颜色(color)来说,这可能并不总是如此。根据分子A和B之间的颜色原子的数量和类型,|overlapAB|有可能比|selfA|大,并且随着α值的变化,有时会导致TverskyA,B大于1.0。

ROCS计算得到两个Tversky值:1)RefTversky,以参比分子为主Self overlap,也就是α=0.95,偏向参比分子;2)FitTversky,以数据库分子为主self overlap,也就是β=0.95,偏向数据库分子。

相应的,ROCS计算会得到三种Combo打分:

  • TanimotoCombo = ShapeTanimoto + ColorTanimoto
  • RefTverskyCombo = RefTversky + RefColorTversky
  • FitTverskyCombo = FitTversky + FitColorTversky

虽然人们没有达成一致认为一种方法优于另一种方法,但是已有的研究证明Tversky方法在虚拟筛选性能上比Tanimoto方法有很大的提升2,3

目前已经有众多的验证性文献报道了ROCS的虚拟筛选性能,比如Kearnes3、Koes4与Jiang等人5就用DUD-E等基准数据集系统地对ROCS虚拟筛选性能进行了评估并与其它基于配体3D相似性的方法进行了比较。尽管如此,大部分虚拟筛选方法的性能评估与比较仅针对Tanimoto方法,而对Tversky方法的性能与比较研究则很少见。

本文的目的是再次强调Tversky方法——尤其是RefTverskyCombo方法——的虚拟筛选性能,并引用Jiang5与郑行6等人报道的基于配体3D相似性虚拟筛选方法在DUD-E数据集上的性能表现进行了比较。

结果

最近,Jiang等人5对9种基于配体的3D相似性方法在DUD-E数据集上进行了比较,郑行6等人则公开了采用Uni-Mol深度学习方法进行基于配体3D相似性虚拟筛选的性能,这些数据汇总于表1。

表1. ROCS_TverskyComboScore与其它3D相似性方法在DUD-E数据集上的虚拟筛选性能比较

方法 ROC AUC EF1% EF5% EF10%
ROCS_TverskyComboScorea 0.756 25.3 8.4 5.0
ROCS_ComboScoreb 0.598 12.44 4.33 2.80
ROCS_ColorScoreb 0.620 13.20 4.76 3.09
ROCS_ShapeTanimotob 0.547 6.89 2.93 2.07
Phase Shape_Mmodb 0.677 13.73 5.06 3.34
Phase Shape_Eleb 0.674 14.57 5.50 3.57
Phase Shape_Pharmb 0.692 16.03 6.00 3.84
Shape-itb 0.541 4.73 2.50 1.91
Align-itb 0.659 12.44 4.87 3.21
ShaEP_bestb 0.658 10.28 4.32 2.99
ShaEP_shapeb 0.625 8.86 3.82 2.76
ShaEP_ESPb 0.606 6.36 3.03 2.25
SHAFTSb 0.733 19.13 6.97 4.37
WEGAb 0.645 12.14 4.67 3.16
LIGSIFTb 0.718 16.22 5.79 3.78
LS-alignb 0.699 15.88 5.74 3.66
Uni-Molc - 20.40 8.48 5.59

a:肖高铿7;b:Jiang等人5;c:郑行6

可以发现,采用Tversky( α=0.95)相似性方法的ROCS TverskyComboScore的虚拟筛选总体性能最佳,在DUD-E 102个靶标上的平均ROC AUC=0.756,优于其它所有的方法,如图1所示。

在基于配体3D相似性的虚拟筛选中使用Tversky-墨灵格的博客

图1. ROCS TverskyComboScore与其它9种3D相似性方法在DUD-E数据集上虚拟筛选总体性能(ROC AUC)比较

同样,采用Tversky(α=0.95)相似性方法的ROCS TverskyComboScore的虚拟筛选方法表现出了最强的早期富集能力。在DUD-E 102个靶标上,富集因子EF1%均值=25.3,优于所有的其它方法,并且大幅领先于第二名Uni-Mol(EF1%=20)与第三名SHAFTS(EF1%=19.13),如图2所示。

在基于配体3D相似性的虚拟筛选中使用Tversky-墨灵格的博客

图2. ROCS TverskyComboScore与其它9种3D相似性方法在DUD-E数据集上虚拟筛选富集因子EF(Top 1%,5%,10%)的比较

总的来说,采用Tversky(α=0.95)相似性方法的ROCS TverskyComboScore不仅在虚拟筛选总体性能上优于其它基于配体3D相似性方法与深度学习方法,而且在早期富集能力上也优于其它方法。

方法

详细的ROCS RefTversky相似性计算方法请参见前文7

结论

总的来说,采用Tversky(α=0.95,即RefTversky)相似性方法的ROCS,不仅在虚拟筛选总体性能(ROC AUC)上优于其它基于配体3D相似性方法与深度学习方法,而且在早期富集能力(EF1%)上也优于其它方法,敬请大胆地在基于配体的3D相似性虚拟筛选中使用Tversky相似性打分。

文献

  1. ROCS. https://docs.eyesopen.com/applications/rocs/theory/measure_similarity.html
  2. Horvath, D.; Marcou, G.; Varnek, A. Do Not Hesitate to Use Tversky—and Other Hints for Successful Active Analogue Searches with Feature Count Descriptors. J. Chem. Inf. Model. 2013, 53 (7), 1543–1562. https://doi.org/10.1021/ci400106g.
  3. Kearnes, S.; Pande, V. ROCS-Derived Features for Virtual Screening. J. Comput. Aided. Mol. Des. 2016, 30 (8), 609–617. https://doi.org/10.1007/s10822-016-9959-3.
  4. Koes, D. R.; Camacho, C. J. Shape-Based Virtual Screening with Volumetric Aligned Molecular Shapes. J. Comput. Chem. 2014, 35 (25), 1824–1834. https://doi.org/10.1002/jcc.23690.
  5. Jiang, Z.; Xu, J.; Yan, A.; Wang, L. A Comprehensive Comparative Assessment of 3D Molecular Similarity Tools in Ligand-Based Virtual Screening. Brief. Bioinform. 2021, 22 (6), 1–17. https://doi.org/10.1093/bib/bbab231.
  6. 郑行. 分子3D预训练模型Uni-Mol在药物研发中的应用|CADD领袖论坛第3期. https://www.bilibili.com/video/BV1Wd4y137q1
  7. 肖高铿. ROCS——用形状技术进行高效的虚拟筛选. 墨灵格的博客. 2020-03-01. http://blog.molcalx.com.cn/2022/03/15/rocs.html

联系我们,安排在线会议介绍、商务合作与软件试用

您有两种方法可以用上ROCS:1)采购软件,安装在自己的电脑上;2)使用我们的虚拟筛选计算服务。了解更多,请联系我们。