化学反应信息化过程原子映射错误的自动检测与识别

来源 :郑州大学 | 被引量 : 0次 | 上传用户:myth_liu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术地快速发展。目前越来越多的学科领域通过结合计算机技术及机器学习方法进行科学研究。化学信息学是一门使用计算机学的方法来解决化学问题的交叉学科。在信息化的现代,化合物是以指数增长的速度在增长,到近些年来化合物的种类已达到1800万左右。因此人们需要使用计算机的方法去解决或索引大量的化学信息。当人们使用计算机的方法自动处理化学问题时,如使用计算机对化学反应中的原子进行映射(Atom-to-Atom Mapping,AAM),在这个过程中便可能出现映射错误。目前还没有任何一套系统可以完全准确地进行原子映射。而原子映射问题是化学信息学中建模及预测化合物性质的基础,因此通过计算机相关算法实现自动检测与识别原子映射错误显得十分重要。生物、医药和化学的数据通常都具有极高的维度、较强的异质性和较多的冗余信息,所以其处理比较困难,需要采用机器学习的方法来发掘有用信息和内在规律。尤其是在计算化学和计算生物学等领域,长期以来,机器学习被奉为圭臬,发挥出了强大的作用。支持向量机(Support Vector Machine,SVM)是一种重要的模式识别方法,它适合非线性、高维度、小样本数据建模。在化学信息学中支持向量机的使用是所有监督学习算法中应用最多。本文以检测化学反应中原子映射错误为研究对象,基于化学反应缩合技术(Condensed Graph of Reaction,CGR)以及SVM算法设计出两种能自动识别出原子映射错误的方案。主要工作内容及创新性为如下三点:1.在实际应用中获取化学数据库中化学反应的SMILES编码,并把SMILES编码通过ChemAxon软件提供的类包生成相应的Molfile格式编码。最后通过MarvinSketch软件把获取的Molfile格式编码生成与化学反应相对应的CGR。2.针对计算机生成CGR过程中主要依据的原理是原子的映射过程,且在目前为止,通过各种软件来进行原子间的自动映射并不能保证十分准确,从而会生成错误的CGR。因此采用SVM方法判断CGR的正确与否便可得知其中原子映射的正确性。通过建立了CGR分子结构片段的描述符与化学反应中原子映射间的关系模型,将SVM预测任务归结为一个二元分类问题(原子映射正确或错误),从而实现对原子映射错误的自动识别与检测。3.设计出一种基于化学键以及化学反应机理,相对更为简洁高效的识别算法。通过观察错误CGR图例以及结合化学结构原理提出“有效键”的概念,把CGR图中“有效键”相交与异常碳碳键断裂作为筛选条件,最终得出较为理想的识别结果,实现了对原子映射错误的自动识别与检测。
其他文献
可见光通信的原理主要是利用发光二极管的特性发出频率高于人眼可识别的闪烁来传输数据,因此,可见光通信可以在通信的同时保证照明。可见光通信具有高速、安全、绿色等特点,
虚拟化技术是云计算的基石,内存是虚拟化技术中一项重要的资源维度。云平台中大内存配置可以让云平台承载更多具有大内存需求的应用。但是,这些大内存应用产生巨大的页表给TL
1978年,MIT的三位学者Ron Rivest、Adi Shamir、Leonard Adleman基于此概念,发表论文,RSA公钥密码体制面世。目前,在各个国家以及政府财力政策支持下,量子计算正以相当快的速
藏族文化中妇女服饰的多样性在世界性非物质文化遗产中可谓色彩斑斓,基本上每个大的社区之间的妇女服饰都在质料、款式、色彩、佩饰等方面不尽一致,而且每个细节都有各自社区
在现代医学图像的采集过程中,存在许多成像方式,它们往往涉及许多不同类型的设备或是同种设备的不同参数设置,借此来为医生的诊断提供多视角的信息。它们能够突出显示相同解剖结构下的不同组织与病变信息。然而,由于多模态成像检查过程需要较长的时间,可能因为病人难以配合或者采集图像被噪声或伪影破坏而导致某些模态下的图像缺失。另一方面,图像模态的不同可能会给医学图像中自动分析算法带来困难,因为一种图像分析算法的提
钢筋混凝土板柱节点易发生脆性冲剪破坏,这是导致板柱结构发生连续倒塌的关键因素。连续倒塌是整体结构系统的大变形力学行为,尽管结构构件在大变形下的受力模式发生变化,但是对倒塌破坏的传播仍有显著影响。由于在整体结构体系中受面内约束作用,板柱节点在冲剪破坏后由于钢筋的拉膜作用仍可提供较大的倒塌抗力,因此研究节点冲剪破坏后的受力机理以及性能提升措施对板柱结构抗连续倒塌工程实践具有重要意义。现有板柱节点研究主
随着信息技术的深入发展,网络学习已经成为一种重要的学习方式,相比于传统学习方式,网络学习不受时间、地点的限制,能够及时满足学生随时学习的需要;网络学习资源是网络学习
自从英国数学家Turing于1936年开创性的提出图灵计算机模型以来,电子计算机就在各个领域得到了迅猛发展,并一跃成为了 20世纪三大科学革命之一,其对社会的发展和进步产生了巨
余弦调制滤波器组的设计结构简单,处理实信号效果理想,被广泛运用在语音信号、图像信号的处理领域和军用领域。但是余弦调制滤波器组的抽头系数数目会随着通道数目的增多而变
基于事件的社会网络(Event-Based Social Networks,EBSN)为人们提供了一个创建、发布和组织社会事件的在线平台,以帮助具有相同兴趣的用户进行线上和线下交互。不同于传统社