论文部分内容阅读
数据挖掘在化学中的一个重要的应用是从数据库中提取有用的信息,从而根据化合物相应的分子结构,拓扑指数或者化学指纹图谱对化合物进行分类和识别。随着化学测量技术和现代信息技术的发展,越来越多的包含大量化合物和化学信息的大型数据库被建立,例如:质谱数据库,色谱数据库或者基于分子结构和其他性质的数据库。如何发现隐藏在这些大型数据库中的知识是一个巨大的挑战。 质谱仪是一种用来对化合物进行鉴别和特征化的仪器技术,它产生了大量的有助于化学结构解析的数据。根据质谱鉴别化合物和识别化学结构性质一直都是化学计量学中一项重要的工作。本文首先对多元统计分析,人工智能和现代数据挖掘中的各种分类方法进行了深入的讨论,其中一些方法已被用于基于质谱数据的化学结构和性质的智能识别。但是,仍然有很多的化学结构或子结构不能被现有分类器有效的识别。从而寻找更好更适合质谱数据的方法仍然是化学计量学中一个重要的工作。 在这篇论文里,我们提出了将分类树和逆切片回归法(SIR)结合的新方法,并将这种方法用于质谱数据的分类问题。分类树是数据挖掘中最常用的一种分类工具,它在自动选择变量和体现交互作用方面具有强大的功能。分类树已经被广泛的用于质谱数据的分类。但如果输入变量是以某种线性组合的方式起作用,决策树往往会因为无法体现这种方式导致模型的复杂化和准确性的降低。逆切片回归法正是一种在高维数据中找出有用的变量的线性组合来回归响应变量的方法。所以有效的结合这两种方法可以继承它们的优点,使树结构也可体现变量间的线性组合关系。实验表明这种方法的确提高了决策树分类的准确性,而且与一些经典的分类方法相比,它可以得到更好试验结果。 助推法(boosting)是近代分类方法中的一个重要发展,它已经被成功的用于很多领域,但是在化学计量学中,几乎没有任何的应用。在这篇论文里,我