欢迎您 访客    免费注册    会员登录    忘记密码?   

IUPAC国际化学品标识符 (InChI)及密钥 (InChIKey) V. 1.06简介及应用

国际化学品标识符(International Chemical Identifier, InChI),以下简称因奇,是由国际纯粹与应用化学联合会IUPAC制定的,用以标识化学品IUPAC名称的唯一字符串编码系统。1999年,史蒂夫·海勒 Steve Heller和史蒂夫·斯坦 Steve Stein提出因奇可自由使用的化合物规范标识表示法。开发者最初为美国国家标准与技术研究院NIST,现由国际化学品标识符基金会 InChI Trust维护,继续深入开发。InChI Trust是一家非营利性英国慈善机构,由成员组织的捐款支持。该软件最初版本于2005415日发行,稳定版本为Ver.1.0520173月),现行版本为Ver.1.06(英文)。该软件可在WindowsLinux操作系统下运行,有32位、64位两个版本。截至202012月,因奇已经更新至1.06版本(已适用于高分子)及RInChI(适用于化学反应)。目前因奇项目小组正致力于开发混合物、溶剂、大分子、生物高分子、无机物、同分异构体等的表达方法。因奇及其InChIKey,以下简称因奇密钥,已逐渐成为全球科学家必不可少的工具,为化学提供了一种新的通用语言,使化学家和计算机主宰的海量化学信息能够更有效地进行沟通,从而能够加快科学创新研究的步伐。

每种化合物被化学家首次发现或合成出来时,往往会以不同的方式对其进行命名,对于不同国家或地区、不同语言、甚至不同行业的人员来说,同一种化合物却有不同的名称。因奇作为一种国际通用的化合物转化为计算机可读的字符串方法,希望可以通过化合物信息的组合来使不同渠道的化学品产生关联。一个用因奇表达的化合物含有以下信息:分子式、连接性、同位素、立体结构、互变异构体和电荷。由于有的化合物结构庞杂因奇表达式过于冗长,因奇项目小组开发了因奇密钥来进行表达的简化,这种简化方式所形成的字符串,可适用于互联网和数据库搜索引擎的查询。因奇密钥只是完整因奇字符串的压缩表示形式,由27个字符(25个大写字母和2个连接符)组成的哈希函数值。它与因奇不同,不是唯一的,但重复率极低。

若想用winchi-1.exe (Ver.1.06)一次性生成因奇和因奇密钥的表达式,首先必须借助于化学结构绘图软件,在绘出已知化合物结构式的基础上另存为mol格式文件(支持V3000版本),在软件Ver.1.06上加载后生成表达式。目前,因奇算法和表达式的生成已经成为主流化学结构绘图软件的组件。并可以通过软件中的“InChI”按钮生成因奇及因奇密钥的表达式,例如ChemDraw(绘出2D结构式选中后,依次Edit, Copy as, InChIInChIKey;右键Paste, MDL, Symyx, Accelrys, BIOVIA Draw, ISIS Draw, ChemAxon Marvin Sketch, ACD Labs, ChemSketch, CLiDE, Jmol等等。对于具有生成“InChIInChIKey”功能的化学结构绘图软件,要了解其软件组件版本的有效性,否则生成的表达式可能与现行版本有差异。现行版本Ver.1.06可用于验证化学结构绘图软件生成的因奇及密钥的符合性。

过去100年里,IUPAC主要是通过出版彩色书来执行标准化化学命名法的黄金标准。随着时间的流逝和科技飞速发展,在原有的命名系统完善的同时,化学家们需要创造出一种全新的国际化学品标识系统,因奇则应运而生。各种化学品标识系统虽然不存在排他性,但也让人难免会作一番比较。规范的SMILES存在无法自由使用的问题,因为其生成算法为商业性;因奇最大的特点是公益性、开源、免费,更好的融合了有机与无机化合物的命名。因奇表达式可以直接在ChemDraw等化学结构绘图软件上生成2D结构式(拷贝因奇到剪切板,在化学结构绘图软件界面上,右键Paste Special, InChI即可)。因奇密钥与CAS登录号比较,也是3段码,只是英文大写字母替代了阿拉伯数字。对于用户来讲,获得有主动性,只要正确使用,立即自主生成,全世界通用;而CAS登录号为被动性,发布周期较长,有时还存在ISO对已有通用名称重新定义而未及时修正而造成的对应混乱问题。因奇密钥可接受性强,还有检索速度快(可到化学蜘蛛ChemSpide网站上搜索测试)。因奇密钥还能搜索到用化学文摘号(CAS)无法检索的化合物,因为有些化合物可能因多种原因暂无CAS登录号。

目前在互联网上,大型通用化学类数据库几乎都以各种方式支持因奇密钥查询,如PubChemEuropean Biometrics Institute UniChemRoyal Society of Chemistry – ChemSpiderNational Cancer Institute – Chemical Structure Lookup ServiceChemNavigator iResearch LibraryElsevier – ReaxysACS/CAS的化学文摘社。注意用密钥搜索CAS commonchemistry (https://commonchemistry.cas.org/) 网站时,在27个字符串前应加InChIKey=。如检索敌敌畏,应拷贝“InChIKey=OEBRKCOSUFCWJD-UHFFFAOYSA-N”,而不是“OEBRKCOSUFCWJD-UHFFFAOYSA-N”SciFinder不包含因奇及密钥信息;SciFindern具有(在Other Names and Identifiers中)但不支持查询。

用因奇密钥在互联网数据库中(如化学蜘蛛ChemSpide)检索后,除未搜索到目标化合物外,中标的结果可能还有两种情况,一种是全匹配(Full match),另一种是骨架匹配(Skeleton match),骨架匹配的化合物与目标化合物在某些方面会有差异,如立体构型方面等。

CAS登录号比较,因奇密钥不足是天书,直接看不懂(因奇专业人士可以解读),另书写性稍差、人眼辨识性也差。在数据库开发网页制作时实用性不足。CAS登录号至少从第一段码还可以大致判断化合物新旧的属性而其则不具备。

与农药名称相关的国际标准中先后给出了因奇和/或因奇密钥,如ISO 765:2016 Pesticides considered not to require common names 无需通用名称的农药给出了因奇和因奇密钥;ISO 1750:1981/Amd 4, Amd 5:2008 Pesticides and other agrochemicals — Common names 农药和其它农用化学品通用名称 修订4、修订5中只给出了因奇;ISO 1750:1981/Amd 7:2021给出了因奇和因奇密钥。

各国农药管理部门如能接受IUPAC新的化合物标识系统,因奇密钥将来可能会出现在商品农药标签上。作为农药通用名称的完善和补充,让农药生产企业能更清楚地说明,他们生产的那瓶农药到底装的是啥,特别是哪种盐类农药。

软件的使用操作步骤

1. 首先下载压缩包INCHI-1-BIN.zip,农药名网(http://nyfzx.com/software/INCHI-1-BIN.rar )或INCHI-1-BIN.ziphttps://www.inchi-trust.org/download-latest-inchi-standard-software/ )到本地计算机硬盘,无需安装解压后出现INCHI-1-BIN文件夹,点击打开选择操作系统(linux操作系统还需要进一步解压),双击Windows文件夹,双击winchi-1.exe文件启动既可使用(注意在C盘上运行可能触发防病毒程序)。

2. 生成标准的因奇、因奇密钥表达式是建立在化合物正确的二维路易斯式或键线式化学结构式基础之上的,该软件Ver 1.06版支持扩展名*.mol(支持V3000版本,适于蛋白质、聚合物等)或*.sdf(更适合于三维结构)文件的打开并转换出相应信息。对混合物的结构式制作要符合规范要求。具体步骤是Open, 点击对话框 …, 打开选择制作好的*.mol文件,OK,即生成因奇及密钥。复制仅支持Ctrl+C

3. 农药化合物示例

1)常规化合物,基本都能够正确表达,如敌敌畏:

InChI=1S/C4H7Cl2O4P/c1-8-11(7,9-2)10-3-4(5)6/h3H,1-2H3

    [化学式层] / [原子连接层] /[氢原子层]

InChIKey=OEBRKCOSUFCWJD-UHFFFAOYSA-N

2)立体结构化合物

六六六的5种相对异构体能够正确表达并生成2D结构式:

α-六六六

InChI=1S/C6H6Cl6/c7-1-2(8)4(10)6(12)5(11)3(1)9/h1-6H/t1-,2-,3-,4-,5+,6+/m1/s1

InChIKey=JLYXXMFPNIAWKQ-SHFUYGGZSA-N

β-六六六

InChI=1S/C6H6Cl6/c7-1-2(8)4(10)6(12)5(11)3(1)9/h1-6H/t1-,2-,3+,4+,5-,6-

InChIKey=JLYXXMFPNIAWKQ-CDRYSYESSA-N

γ-六六六

InChI=1S/C6H6Cl6/c7-1-2(8)4(10)6(12)5(11)3(1)9/h1-6H/t1-,2-,3-,4+,5+,6+

InChIKey=JLYXXMFPNIAWKQ-GNIYUCBRSA-N

δ-六六六

InChI=1S/C6H6Cl6/c7-1-2(8)4(10)6(12)5(11)3(1)9/h1-6H/t1-,2-,3-,4+,5-,6-

InChIKey=JLYXXMFPNIAWKQ-GPIVLXJGSA-N

ε-六六六

InChI=1S/C6H6Cl6/c7-1-2(8)4(10)6(12)5(11)3(1)9/h1-6H/t1-,2-,3-,4-,5-,6-

InChIKey=JLYXXMFPNIAWKQ-DCLYFUHFSA-N

α-硫丹与β-硫丹也能正确表达:

α-硫丹

InChI=1S/C9H6Cl6O3S/c10-5-6(11)8(13)4-2-18-19(16)17-1-3(4)7(5,12)9(8,14)15/h3-4H,1-2H2/t3-,4+,7-,8+,19?

InChIKey=RDYMFSUJUZBWLH-AZVNHNRSSA-N

β-硫丹

InChI=1S/C9H6Cl6O3S/c10-5-6(11)8(13)4-2-18-19(16)17-1-3(4)7(5,12)9(8,14)15/h3-4H,1-2H2/t3-,4+,7+,8-,19?

InChIKey= RDYMFSUJUZBWLH-IOPZMNTHSA-N

菊酯类杀虫剂在表达上还存在一些问题。

3)无法正确表达的复杂混合物

简单的二元混合物表达的较好。但多元的混合物表达的差。苯环上取代基团不定的化合物,如混杀威,56307-77-8等,各种植物提取物等,现版本无法给出正确的因奇和因奇密钥表达式。


综上所述,笔者通过300多种农药的验证应用,V. 1.06版本软件在WIN 10上运行可靠稳定。

三段阿拉伯数字为化学世界的发展做出了重要贡献,同时也攫取了全世界不少财富,因奇试图冲破这一现状,有了一定的实用性,但研发的路还很长。在这方面,我们明显落后了许多。我国的化学家们要奋起直追,期盼尽早建立起自己的化学品编码系统。

2022-05-17 于青岛修订