摘要:本文以化合物31作为查询分子,对ChEMBL35数据库进行基于形状的虚拟筛选,然后对筛选结果进行了化学基因组分析,预测了化合物31的可能靶标,提供了一种基于3D形状相似性进行靶标预测的方法。

1 前言

近期,我们在一篇博客文章中探讨了查询结构(query)的准备对基于形状的虚拟筛选结果所产生的显著影响1。该研究以阿斯利康近期公开的ROS1抑制剂——化合物31(图1)为例,对ChEMBL35数据库进行了虚拟筛选。结果表明,采用生物活性构象构建的查询结构能够有效召回已知的ROS1抑制剂;而若使用非活性构象作为查询,则难以识别出具有真实生物活性的化合物。

ROS1抑制剂化合物31

图1. 化合物31的化学结构式(ROS1 IC₅₀ = 97 nM)

鉴于本研究中所使用的ChEMBL数据库是一个成熟的化学基因组学资源,这一结果自然引出了一个关键问题:是否可以通过3D结构相似性推断潜在的靶标?换言之,若某化合物与已知靶标配体在三维形状与药效团特征上高度相似,其是否可能作用于相同或相近的靶点?基于此,本文旨在对上述虚拟筛选结果进行系统的化学基因组学解读,并简要回顾相关方法学基础。

2 方法学背景

我们在2017年的一篇技术博客中2曾详细介绍如何利用OpenEye公司开发的ROCS(Rapid Overlay of Chemical Structures)软件,基于分子三维形状与药效团特征,对PDB中共晶结构中的生物活性配体进行虚拟筛选,从而实现靶标预测(target fishing)。该方法已通过我们搭建的在线服务平台,为国内多家学术机构与制药企业完成了多项靶标识别与脱靶效应分析任务,部分成果已经发表文章3-5

3 蛋白–配体识别的基本假设

蛋白–配体相互作用的核心物理基础在于三维互补性:即分子的形状与静电分布若能与蛋白结合口袋高度匹配,则该分子很可能成为该蛋白的有效配体。药效团可视为静电相互作用的一种简化模型。因此,具有相似三维形状与药效团特征的化合物,往往倾向于结合至相同的结合位点,并表现出相似的生物学活性。

ROCS: alignment

图2. 基于ROCS的靶标预测原理示意图

ROCS通过将待测分子转化为三维形状与颜色(即药效团)表示的查询式(query),随后将其与数据库中已知靶标的配体进行叠合比对,计算其相似性得分。主要输出指标包括:

  • Tanimoto Shape(范围:0–1):衡量形状相似性;
  • Tanimoto Color(范围:0–1):衡量药效团相似性;
  • Combo Tanimoto(范围:0–2):为前两者之和,值越接近2,表示整体3D相似性越高。

在此框架下,与查询分子在3D空间高度相似的已知配体所对应的靶标,即为预测的潜在靶点。

化合物31的靶标预测:基于ChEMBL35的化学基因组学分析

尽管前文1中并未直接使用ROCS,而是采用了其开源近似算法ROSHAMBO2,我们仍以化合物31为参比分子,对ChEMBL35数据库进行了大规模虚拟筛选,获得了Tanimoto Combo相似性得分最高的10,000个命中化合物。随后,我们提取这些化合物在ChEMBL中对应的靶标信息,并对靶标进行聚合分析:每个靶标以其最相似的配体为代表,该配体的相似性得分即作为该靶标的预测置信度。

在本文中,我们采用RefTverskyCombo作为主要打分标准进行结果展示。选择该指标的原因在于其在虚拟筛选任务中的优异表现6——在DUD-E基准数据集上,RefTverskyCombo的性能优于当前主流的商业软件、开源工具及多种AI驱动方法7

需要特别指出的是,本次分析未对原始预测结果进行任何后处理优化,例如:

  • 未排除构象不稳定的预测;
  • 未过滤缺乏关键相互作用(如氢键、π–π堆积等)的匹配;
  • 未考虑空间位阻或立体冲突等问题。

因此,以下结果应视为初步预测,需结合结构生物学与实验验证进一步评估。

4 结果:靶标预测报告节选

4.1 分析概要

本次化学基因组学分析基于 ChEMBL 35 数据库,采用 RefTverskyCombo 相似性算法,对输入文件 CONF_34_VS_hits_score.csv 进行解析,最终生成 792 个靶标 的预测结果。核心数据统计如下:

  • 相似性文件记录数:10,000 条
  • 靶标文件记录数:6,461 条
  • 构建化合物相似性映射:10,000 个
  • 匹配靶标记录:6,461 条
  • 输出报告位置:target_prediction_report.csv

4.2 关键统计指标

预测结果覆盖792个靶标,相似性得分呈现明显梯度分布(表1)。

表1. 总体统计
指标 数值
总靶标数 792
最高相似性打分 1.552455
最低相似性打分 1.200591
平均相似性打分 1.289115


4.3 Top 5 预测靶标概览

表2. 排名前5靶标概览
排名 靶标ID 靶标 相似性 最佳配体ID 活性 匹配化合物数
1 CHEMBL3788 PLK4 1.55 CHEMBL5183478 IC₅₀ = 20.2 nM 35
2 CHEMBL3885546 CRHR2 1.55 CHEMBL1327614 EC₅₀ = 5680.0 nM 10
3 CHEMBL2815 Trk-A 1.53 CHEMBL5201147 IC₅₀ = 83.0 nM 33
4 CHEMBL2083 FABP4 1.52 CHEMBL184142 IC₅₀ = 4000.0 nM 9
5 CHEMBL251 ADORA2A 1.52 CHEMBL264433 Kᵢ = 25.0 nM 51


4.4 Top 5 预测靶标详细信息

排名 1 靶标ID: CHEMBL3788

  • 靶标名称: Serine/threonine-protein kinase PLK4
  • 物种: Homo sapiens
  • 相似性打分: 1.552455
  • 相似性区间: [1.206659, 1.552455]
  • 平均相似性: 1.348264
  • 化合物数量: 35
  • 最佳化合物ID: CHEMBL5183478
  • 最佳化合物SMILES: Cc1cc(Nc2nc(NCc3ccc(Cl)cc3)nc3c2cnn3C)n[nH]1
  • 活性类型: IC50
  • 活性值: 20.2 nM

排名 2 靶标ID: CHEMBL3885546

  • 靶标名称: Corticotropin-releasing factor receptor 2
  • 物种: Homo sapiens
  • 相似性打分: 1.551882
  • 相似性区间: [1.217596, 1.551882]
  • 平均相似性: 1.273549
  • 化合物数量: 10
  • 最佳化合物ID: CHEMBL1327614
  • 最佳化合物SMILES: Cc1cc(N2CCOCC2)nc(NCc2ccccc2)n1
  • 活性类型: EC50
  • 活性值: 5680.0 nM

排名 3 靶标ID: CHEMBL2815

  • 靶标名称: Nerve growth factor receptor Trk-A
  • 物种: Homo sapiens
  • 相似性打分: 1.526303
  • 相似性区间: [1.207519, 1.526303]
  • 平均相似性: 1.355818
  • 化合物数量: 33
  • 最佳化合物ID: CHEMBL5201147
  • 最佳化合物SMILES: Cc1cc(Nc2nc(NCc3ccc(C#N)cc3)nc3ccccc23)n[nH]1
  • 活性类型: IC50
  • 活性值: 83.0 nM

排名 4 靶标ID: CHEMBL2083

  • 靶标名称: Fatty acid binding protein adipocyte
  • 物种: Homo sapiens
  • 相似性打分: 1.519905
  • 相似性区间: [1.207503, 1.519905]
  • 平均相似性: 1.373248
  • 化合物数量: 9
  • 最佳化合物ID: CHEMBL184142
  • 最佳化合物SMILES: CN(Cc1ccc(Cl)cc1)c1nc(O)cc(C(F)(F)F)n1
  • 活性类型: IC50
  • 活性值: 4000.0 nM

排名 5 靶标ID: CHEMBL251

  • 靶标名称: Adenosine A2a receptor
  • 物种: Homo sapiens
  • 相似性打分: 1.519850
  • 相似性区间: [1.200071, 1.519850]
  • 平均相似性: 1.292072
  • 化合物数量: 51
  • 最佳化合物ID: CHEMBL264433
  • 最佳化合物SMILES: O=C(c1cccs1)c1nc(NCc2ccccc2)nc2ccsc12
  • 活性类型: Ki
  • 活性值: 25.0 nM

讨论与注意事项

需要再次强调:本次计算中,药效团特征由软件自动从参比配体中提取,未对关键相互作用位点进行加权处理。这可能导致整体相似性得分较高,但局部关键药效特征缺失的情况。

化合物31(右)与CHEMBL264433(左,A2A配体)3D叠合图

图3. 化合物31(右)与CHEMBL264433(左,A2A配体)3D叠合图。尽管CHEMBL264433在整体上与31的形状相似性高(Tversky Combo = 1.52),但关键氢键供体缺失(红色飘带区域为激酶铰链区),提示功能匹配性存疑。

以排名第5的A2A受体为例,其最佳匹配配体CHEMBL264433虽与化合物31具有较高的3D相似性(Combo = 1.52),但如图3所示,该分子缺乏与激酶铰链区形成氢键的关键供体基团。若将CHEMBL264433视为ROS1抑制剂候选,则需谨慎评估其结合能力;反之,若考虑将化合物31用于靶标A2A,则需验证其额外氢键供体是否与A2A结合口袋兼容。

因此,在严肃的药物发现项目中,建议对初步预测结果进行以下后处理:

  • 结合蛋白结构进行对接验证;
  • 分析关键相互作用是否满足;
  • 排除存在显著立体冲突或构象张力的匹配。

文献

  1. 查寻分子的准备对基于形状虚拟筛选的影响. http://blog.molcalx.com.cn/2025/10/11/the-impact-of-query-conformation-on-shape-based-virtual-screening.html
  2. 基于ROCS的靶标预测方案与教程. http://blog.molcalx.com.cn/2017/01/31/rocs-target-fishing.html
  3. Tu, Y.; Wang, K.; Tan, L.; Han, B.; Hu, Y.; Ding, H.; He, C. Dolichosin A, a Coumestan Isolated from Glycine Tabacina, Inhibits IL-1β-Induced Inflammation in SW982 Human Synovial Cells and Suppresses RANKL-Induced Osteoclastogenesis: From Network Pharmacology to Experimental Pharmacology. J. Ethnopharmacol. 2020, 258 (April), 112855. https://doi.org/10.1016/j.jep.2020.112855.
  4. Liu, J.; Yang, J.; Hou, Y.; Zhu, Z.; He, J.; Zhao, H.; Ye, X.; Li, D.; Wu, Z.; Huang, Z.; et al. Casticin Inhibits Nasopharyngeal Carcinoma Growth by Targeting Phosphoinositide 3-Kinase. Cancer Cell Int. 2019, 19 (1), 348. https://doi.org/10.1186/s12935-019-1069-6.
  5. Wang, Y.; Hu, B.; Peng, Y.; Xiong, X.; Jing, W.; Wang, J.; Gao, H. In Silico Exploration of the Molecular Mechanism of Cassane Diterpenoids on Anti-Inflammatory and Immunomodulatory Activity. J. Chem. Inf. Model. 2019, 59 (5), 2309–2323. https://doi.org/10.1021/acs.jcim.8b00862.
  6. Horvath, D., Marcou, G. and Varnek, A. (2013) “Do Not Hesitate to Use Tversky—and Other Hints for Successful Active Analogue Searches with Feature Count Descriptors,” Journal of Chemical Information and Modeling, 53(7), pp. 1543–1562. Available at: https://doi.org/10.1021/ci400106g.
  7. 在基于配体3D相似性的虚拟筛选中使用Tversky. http://blog.molcalx.com.cn/2023/04/17/using-tversky-in-vs.html