摘要:ZINC数据库是一个已经进行过系列准备、并生成高质量3D构象的小分子化合物数据库,可以直接用于分子对接等虚拟筛选。本文描述了如何从ZINC下载3D数据库,并合并为单一文件。
为什么用ZINC数据库
数据库的准备是非常繁琐的流程,需要对不同来源的化合物数据库进行系列的准备,在OpenEye | 化合物数据库的准备一文中已经详细讨论过。ZINC数据库是开源学术免费,已经进行了充分的准备并可以直接用于分子对接等虚拟筛选。本文的目的是演示如下从ZINC下载可以直接使用的3D数据库。
ZINC数据库的下载
ZINC最新版本为ZINC15,下载地址为:http://zinc15.docking.org。ZINC数据库提供了cURL,powershell,wget等方式下载。
没有必要下载ZINC15的全库,可以根据自己的需求通过选项来控制下载化合物的特征,简要说明如下:
- 访问数据库
- 选择合适的理化性质
- 根据需要选择2D还是3D数据库
- 选择化合物的可获取方式
- 根据化合物特性下载
- 选择下载方法
- 下载数据库
访问ZINC15数据库:http://zinc15.docking.org,点击Tranches选项卡。
再分子量与logp的坐标上点击确认自己需要的分子量范围与logp范围(见示意图步骤1)。
点击2D或3D,可以选择下载2D的SMILES或者3D的结构,见示意图步骤2。注意:该操作要在进行其它选择之前做。鉴于我们的目的是下载已经准备好的3D结构,那么点击3D(由于网络的原因,可能需要点时间加载)。
示意图第3步可以选择化合物的可获取状态:比如有库存(in stock)、等等也可以(wait OK)…。
示意图第4步可以选择化合物的类药、类先导、片段等特性。
示意图第5步可以选择下载脚本的类型。比如linux可以用curl或wget;windows可以用Powershell。选择一种下载方法即可。
假设你选择了wget,你会下载一个类似于”ZINC-downloader-3D-sdf.wget”文件名的下载脚本,键入下面命令执行下载脚本:
1 | sh ZINC-downloader-3D-sdf.wget |
注意:如果下载3D数据,硬盘一定要大!
下载后数据库的合并
以SDF格式文件为例,下载到的数据库保存在2级目录,并被压缩,如下目录结果所示:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | . ├── AA │ ├── AAML │ │ └── AAAAML.xaa.sdf.gz │ ├── AAMM │ │ └── AAAAMM.xaa.sdf.gz │ ├── AAMN │ │ └── AAAAMN.xaa.sdf.gz ... │ │ └── AAEBRO.xaa.sdf.gz │ └── EBRP │ └── AAEBRP.xaa.sdf.gz ├── BA │ ├── AAML │ │ └── BAAAML.xaa.sdf.gz │ ├── AAMM │ │ └── BAAAMM.xaa.sdf.gz │ └── AAMN │ └── BAAAMN.xaa.sdf.gz ... |
目录名称或文件名称中的大写字母是6D-化学空间坐标,可以很方便的管理你的数据库。常见的一个问题是:如何把这些sdf.gz文件合并为一个sdf文件呢?其实很简单,假设当前目录仅包含从zinc下载的内容,使用下面的脚本将各个.sdf.gz合并:
1 2 3 4 5 6 7 8 9 10 | ls -d *|while read dir_1 do ls -d ${dir_1}/*|while read dir_2 do ls $dir_2/*.sdf.gz|while read file do cat $file >> ZINC-3D-merged.sdf.gz done done done |
现在我们得到一个合并后的文件:ZINC-3D-merged.sdf.gz。该文件可以直接用于分子对接虚拟筛选、Ligandscout构象搜索(idbgen数据库准备,建议设置允许重复结构)。
文献
- Irwin, J. J.; Shoichet, B. K. ZINC – A Free Database of Commercially Available Compounds for Virtual Screening. J. Chem. Inf. Model. 2005, 45 (1), 177–182. https://doi.org/10.1021/ci049714+.