摘要:本文介绍了如何手工建立SMILES格式的化合物数据库。
一.背景
虚拟筛选等都需要用到化合物库。化合物库可以从化合物供应商网站下载,可以用组合库设计软件生成,还可以自己构建。本文介绍了一个最简单的化合物库构建方法。
假设我们要建一个SMILES格式的化合物数据库,文件名为db.smi,该数据库含有四个化合物苯,苯酚,苯胺与阿司匹林。解决方法为:1)建立一个文件db.smi; 2)将苯、苯酚、苯胺、阿司匹林的结构用SMILES编码,复制到db.smi文件里,每行一个结构;3)保存即可。
关于SMILES格式
见:http://www.daylight.com/dayhtml_tutorials/languages/smiles/index.html
二.SIMLES格式的化合物库构建
- 化合物结构的准备
- 生成多结构的文件–即数据库
用CHEMDRAW、ChemAxon的MarvinSketch等结构绘制软件将结构画好,再Edit>Copy as SMILES;如果你什么软件都没有,你可以在线用JSME绘制结构,将化合物的SMILES代码复制。比如http://targetfishing.molcalx.com.cn就提供了JSME可以画结构。
(1)新建文件db.smi,用notepad++或VIM等文本编辑器打开;
(2)将画好的结构分别复制为SMILES代码,黏贴到db.smi里。每行一个SMILES,空格加化合物名称;
1 2 3 4 | c1ccccc1 M01 c1ccccc1O M02 c1ccccc1N M03 CC(=O)Oc1ccccc1C(=O)O M04 |
(3)保存即可,本例下载: db.smi
三.说明
- 如果要转化为其它格式,可以用Openbabel将SMILES格式转化为SDF,MOL2等格式;
- 数据库的文件名后缀并不重要,无论是.smi,.smiles, .txt, .in,只要内容是SMILES格式,都可以被主流软件识别。
- Ligandscout、Forge等识别Excel格式,主要原理是:结构那一列用SMILES编码。
- MOL2,SDF也是常用的化合物结构文件,均支持在一个文件里存储多个结构,即化合物数据库或多结构文件。
- SMILES是纯文本文件,注意在Windows下不要引入其它字符。
- SMILES很容易用MySQL等SQL数据库管理,比如:http://chem.molcalx.com.cn
四. 接下来可以做什么?
- 后处理:立体化学处理,质子化状态处理,生成3D结构,结构优化,构象搜索,性质计算、过滤等。
- 虚拟筛选:分子对接,药效团,2D相似性,3D相似性…