摘要:本文介绍了如何手工建立SMILES格式的化合物数据库。

一.背景

虚拟筛选等都需要用到化合物库。化合物库可以从化合物供应商网站下载,可以用组合库设计软件生成,还可以自己构建。本文介绍了一个最简单的化合物库构建方法。

假设我们要建一个SMILES格式的化合物数据库,文件名为db.smi,该数据库含有四个化合物苯,苯酚,苯胺与阿司匹林。解决方法为:1)建立一个文件db.smi; 2)将苯、苯酚、苯胺、阿司匹林的结构用SMILES编码,复制到db.smi文件里,每行一个结构;3)保存即可。

关于SMILES格式

见:http://www.daylight.com/dayhtml_tutorials/languages/smiles/index.html

二.SIMLES格式的化合物库构建

  1. 化合物结构的准备
  2. 用CHEMDRAW、ChemAxon的MarvinSketch等结构绘制软件将结构画好,再Edit>Copy as SMILES;如果你什么软件都没有,你可以在线用JSME绘制结构,将化合物的SMILES代码复制。比如http://targetfishing.molcalx.com.cn就提供了JSME可以画结构。

  3. 生成多结构的文件–即数据库
  4. (1)新建文件db.smi,用notepad++或VIM等文本编辑器打开;

    (2)将画好的结构分别复制为SMILES代码,黏贴到db.smi里。每行一个SMILES,空格加化合物名称;

    1
    2
    3
    4
    
    c1ccccc1 M01
    c1ccccc1O M02
    c1ccccc1N M03
    CC(=O)Oc1ccccc1C(=O)O M04

    (3)保存即可,本例下载: db.smi

三.说明

  1. 如果要转化为其它格式,可以用Openbabel将SMILES格式转化为SDF,MOL2等格式;
  2. 数据库的文件名后缀并不重要,无论是.smi,.smiles, .txt, .in,只要内容是SMILES格式,都可以被主流软件识别。
  3. Ligandscout、Forge等识别Excel格式,主要原理是:结构那一列用SMILES编码。
  4. MOL2,SDF也是常用的化合物结构文件,均支持在一个文件里存储多个结构,即化合物数据库或多结构文件。
  5. SMILES是纯文本文件,注意在Windows下不要引入其它字符。
  6. SMILES很容易用MySQL等SQL数据库管理,比如:http://chem.molcalx.com.cn

四. 接下来可以做什么?

  1. 后处理:立体化学处理,质子化状态处理,生成3D结构,结构优化,构象搜索,性质计算、过滤等。
  2. 虚拟筛选:分子对接,药效团,2D相似性,3D相似性…