摘要:ZINC数据库是一个已经进行过系列准备、并生成高质量3D构象的小分子化合物数据库,可以直接用于分子对接等虚拟筛选。本文描述了如何从ZINC下载3D数据库,并合并为单一文件。

为什么用ZINC数据库

数据库的准备是非常繁琐的流程,需要对不同来源的化合物数据库进行系列的准备,在OpenEye | 化合物数据库的准备一文中已经详细讨论过。ZINC数据库是开源学术免费,已经进行了充分的准备并可以直接用于分子对接等虚拟筛选。本文的目的是演示如下从ZINC下载可以直接使用的3D数据库。

ZINC数据库的下载

ZINC最新版本为ZINC15,下载地址为:http://zinc15.docking.org。ZINC数据库提供了cURL,powershell,wget等方式下载。

教程 | ZINC数据库的下载-墨灵格的博客

没有必要下载ZINC15的全库,可以根据自己的需求通过选项来控制下载化合物的特征,简要说明如下:

  1. 访问数据库
  2. 访问ZINC15数据库:http://zinc15.docking.org,点击Tranches选项卡。

  3. 选择合适的理化性质
  4. 再分子量与logp的坐标上点击确认自己需要的分子量范围与logp范围(见示意图步骤1)。

  5. 根据需要选择2D还是3D数据库
  6. 点击2D或3D,可以选择下载2D的SMILES或者3D的结构,见示意图步骤2。注意:该操作要在进行其它选择之前做。鉴于我们的目的是下载已经准备好的3D结构,那么点击3D(由于网络的原因,可能需要点时间加载)。

  7. 选择化合物的可获取方式
  8. 示意图第3步可以选择化合物的可获取状态:比如有库存(in stock)、等等也可以(wait OK)...。

  9. 根据化合物特性下载
  10. 示意图第4步可以选择化合物的类药、类先导、片段等特性。

  11. 选择下载方法
  12. 示意图第5步可以选择下载脚本的类型。比如linux可以用curl或wget;windows可以用Powershell。选择一种下载方法即可。

  13. 下载数据库
  14. 假设你选择了wget,你会下载一个类似于"ZINC-downloader-3D-sdf.wget"文件名的下载脚本,键入下面命令执行下载脚本:

    1
    
    sh ZINC-downloader-3D-sdf.wget

    注意:如果下载3D数据,硬盘一定要大!

下载后数据库的合并

以SDF格式文件为例,下载到的数据库保存在2级目录,并被压缩,如下目录结果所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
.
├── AA
│   ├── AAML
│   │   └── AAAAML.xaa.sdf.gz
│   ├── AAMM
│   │   └── AAAAMM.xaa.sdf.gz
│   ├── AAMN
│   │   └── AAAAMN.xaa.sdf.gz
...
 
│   │   └── AAEBRO.xaa.sdf.gz
│   └── EBRP
│       └── AAEBRP.xaa.sdf.gz
├── BA
│   ├── AAML
│   │   └── BAAAML.xaa.sdf.gz
│   ├── AAMM
│   │   └── BAAAMM.xaa.sdf.gz
│   └── AAMN
│       └── BAAAMN.xaa.sdf.gz
...

目录名称或文件名称中的大写字母是6D-化学空间坐标,可以很方便的管理你的数据库。常见的一个问题是:如何把这些sdf.gz文件合并为一个sdf文件呢?其实很简单,假设当前目录仅包含从zinc下载的内容,使用下面的脚本将各个.sdf.gz合并:

1
2
3
4
5
6
7
8
9
10
ls -d *|while read dir_1
do
  ls -d ${dir_1}/*|while read dir_2
                   do
                       ls $dir_2/*.sdf.gz|while read file
                                          do
                                            cat $file >> ZINC-3D-merged.sdf.gz
                                          done
                   done
done

现在我们得到一个合并后的文件:ZINC-3D-merged.sdf.gz。该文件可以直接用于分子对接虚拟筛选、Ligandscout构象搜索(idbgen数据库准备,建议设置允许重复结构)。

文献

  1. Irwin, J. J.; Shoichet, B. K. ZINC - A Free Database of Commercially Available Compounds for Virtual Screening. J. Chem. Inf. Model. 2005, 45 (1), 177–182. https://doi.org/10.1021/ci049714+.