论文部分内容阅读
随着计算机技术地快速发展。目前越来越多的学科领域通过结合计算机技术及机器学习方法进行科学研究。化学信息学是一门使用计算机学的方法来解决化学问题的交叉学科。在信息化的现代,化合物是以指数增长的速度在增长,到近些年来化合物的种类已达到1800万左右。因此人们需要使用计算机的方法去解决或索引大量的化学信息。当人们使用计算机的方法自动处理化学问题时,如使用计算机对化学反应中的原子进行映射(Atom-to-Atom Mapping,AAM),在这个过程中便可能出现映射错误。目前还没有任何一套系统可以完全准确地进行原子映射。而原子映射问题是化学信息学中建模及预测化合物性质的基础,因此通过计算机相关算法实现自动检测与识别原子映射错误显得十分重要。生物、医药和化学的数据通常都具有极高的维度、较强的异质性和较多的冗余信息,所以其处理比较困难,需要采用机器学习的方法来发掘有用信息和内在规律。尤其是在计算化学和计算生物学等领域,长期以来,机器学习被奉为圭臬,发挥出了强大的作用。支持向量机(Support Vector Machine,SVM)是一种重要的模式识别方法,它适合非线性、高维度、小样本数据建模。在化学信息学中支持向量机的使用是所有监督学习算法中应用最多。本文以检测化学反应中原子映射错误为研究对象,基于化学反应缩合技术(Condensed Graph of Reaction,CGR)以及SVM算法设计出两种能自动识别出原子映射错误的方案。主要工作内容及创新性为如下三点:1.在实际应用中获取化学数据库中化学反应的SMILES编码,并把SMILES编码通过ChemAxon软件提供的类包生成相应的Molfile格式编码。最后通过MarvinSketch软件把获取的Molfile格式编码生成与化学反应相对应的CGR。2.针对计算机生成CGR过程中主要依据的原理是原子的映射过程,且在目前为止,通过各种软件来进行原子间的自动映射并不能保证十分准确,从而会生成错误的CGR。因此采用SVM方法判断CGR的正确与否便可得知其中原子映射的正确性。通过建立了CGR分子结构片段的描述符与化学反应中原子映射间的关系模型,将SVM预测任务归结为一个二元分类问题(原子映射正确或错误),从而实现对原子映射错误的自动识别与检测。3.设计出一种基于化学键以及化学反应机理,相对更为简洁高效的识别算法。通过观察错误CGR图例以及结合化学结构原理提出“有效键”的概念,把CGR图中“有效键”相交与异常碳碳键断裂作为筛选条件,最终得出较为理想的识别结果,实现了对原子映射错误的自动识别与检测。