简化分子线性输入规范

维基百科,自由的百科全书

这是本页的一个历史版本,由Dksh1412留言 | 贡献2020年11月26日 (四) 03:46 →‎外部链接编辑。这可能和当前版本存在着巨大的差异。

SMILES
扩展名
.smi
互联网媒体类型
chemical/x-daylight-smiles
格式类型chemical file format
SMILES的產生:打开环,然后写成一条主骨架上的分支形式.

简化分子线性输入规范(英語:Simplified molecular input line entry specification,簡稱SMILES),是一种用ASCII字符串明确描述分子结构的规范。SMILES由Arthur Weininger和David Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.),修改和扩展。

由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。

SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure Diagram Generation algorithms)。

典范SMILES

典范SMILES保证每个化学分子只有一个SMILES表达式。典范SMILES常用于分子数据库的索引。

记法

原子

  1. 原子用在方括号内的化学元素符号表示。
    • 例如[Au]表示“”。
  2. 有机物中的CNOPSBrClI等原子可以省略方括号,其他元素必须包括在方括号之内。
  3. 氢原子常被省略。对于省略了方括号的原子,用原子补足价数。
    • 例如,的SMILES就是O乙醇CCO
  4. 离子用方括号括起,用元素符号和电荷表示,"+"表示正电荷、"-"表示负电荷,电荷数跟在正负号之后。如果该原子与氢原子相连,氢原子写在元素符号后面。
    • 四价离子 (Ti4+) 写作 [Ti+4][Ti++++] 。三价离子(Co3+) 写作 [Co+3][Co+++]
    • 氢氧根 (OH-) 表示为 [OH-]水合氢离子 (H3O+) 表示为 [OH3+]

化学键

  1. 双键用“=”表示;三键用“#”表示。
  2. 如果结构中有环,则要打开。断开处的两个原子用同一个数字标记,表示原子间有键相连。
    • 环己烷(C6H12)表示为C1CCCCC1。需要注意,标志应该是数字(在此例中为1)而不是“C1”这个组合。扩展的表示是(C1)-(C)-(C)-(C)-(C)-(C)-1而不是(C1)-(C)-(C)-(C)-(C)-(C)-(C1)。

芳香环

  1. 芳环中的COSN原子分别用用小写字母c,o,s,n表示。
    • 表示为 c1ccccc1

支链

  1. 碳链上的分支用圆括号表示。

异构SMILES

异构SMILES是指扩展的,可以表示同位素手性和双键结构的SMILES版本。它的一个显著特征是可以精确地说明局部手性。

立体化学

双键两侧的结构分别用符号/\表示,例如,F/C=C/F表示反二氟乙烯,它的两个氟原子位于双键的两侧。
F/C=C\F表示顺二氟乙烯(顺二氟乙烯),它的两个氟原子位于双键的同一侧。

手性碳原子的情况用 @@@ 标明。例如,L-丙氨酸表示为 N[C@@H](C)C(=O)O,标示符 @@ 表明,从氮原子 (N) 处沿着连接氮原子和手性中心的碳原子的键看去, 取代基序列——氢原子 (H), 甲基 (C) 和羧基 (C(=O)O) ——按顺时针出现。 D-丙氨酸则表示为 N[C@H](C)C(=O)O@ 即意为逆时针。取代基列出的顺序在这种情况下显得非常重要,D-丙氨酸还可以表示为 N[C@@H](C(=O)O)C

同位素

表示同位素时将质量数写在元素符号前面。如氘代氯仿[2H]C(Cl)(Cl)Cl ,苯中一个碳原子是碳-14时表示为 [14c]1ccccc1

发展

SMARTS是SMILES基础之上的改进版。SMARTS中增加的一点是,它允许使用通配符表示原子和化学键。因此,它在化合物数据库中广泛用于结构的计算机化搜索。这种搜索的机理是先通过输入的SMILES式重构化学式,再搜索子图的同形;而不是直接通过SMILES式的对比完成的。

USMILES(有时成为广义SMILES),这种“Unique SMILES”是日光化学信息系统有限公司关于结构的规范表达。就是说不管内部原子的编码顺序如何,通过这种算法总可以得到关于化合物规范的、无歧义的、唯一的描述(化学结构表达的唯一性,可参见国际化合物标识)。

其他记法及比较

其他著名的线性记法包括Wiswesser Line Notation(WLN),ROSDAL和SLN。最近国际纯粹与应用化学联合会推荐国际化合物标识作为标准的分子式表达式。

然而普遍认为,SMILES与InChI相比更具有(對人來說的)可读性;而且很多软件都支持SMILES,其中不少软件都具有图论等方面的理论基础。

外部链接