数据挖掘中的分类方法及其在质谱数据中的应用

来源 :四川大学 | 被引量 : 9次 | 上传用户:bjjgx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘在化学中的一个重要的应用是从数据库中提取有用的信息,从而根据化合物相应的分子结构,拓扑指数或者化学指纹图谱对化合物进行分类和识别。随着化学测量技术和现代信息技术的发展,越来越多的包含大量化合物和化学信息的大型数据库被建立,例如:质谱数据库,色谱数据库或者基于分子结构和其他性质的数据库。如何发现隐藏在这些大型数据库中的知识是一个巨大的挑战。 质谱仪是一种用来对化合物进行鉴别和特征化的仪器技术,它产生了大量的有助于化学结构解析的数据。根据质谱鉴别化合物和识别化学结构性质一直都是化学计量学中一项重要的工作。本文首先对多元统计分析,人工智能和现代数据挖掘中的各种分类方法进行了深入的讨论,其中一些方法已被用于基于质谱数据的化学结构和性质的智能识别。但是,仍然有很多的化学结构或子结构不能被现有分类器有效的识别。从而寻找更好更适合质谱数据的方法仍然是化学计量学中一个重要的工作。 在这篇论文里,我们提出了将分类树和逆切片回归法(SIR)结合的新方法,并将这种方法用于质谱数据的分类问题。分类树是数据挖掘中最常用的一种分类工具,它在自动选择变量和体现交互作用方面具有强大的功能。分类树已经被广泛的用于质谱数据的分类。但如果输入变量是以某种线性组合的方式起作用,决策树往往会因为无法体现这种方式导致模型的复杂化和准确性的降低。逆切片回归法正是一种在高维数据中找出有用的变量的线性组合来回归响应变量的方法。所以有效的结合这两种方法可以继承它们的优点,使树结构也可体现变量间的线性组合关系。实验表明这种方法的确提高了决策树分类的准确性,而且与一些经典的分类方法相比,它可以得到更好试验结果。 助推法(boosting)是近代分类方法中的一个重要发展,它已经被成功的用于很多领域,但是在化学计量学中,几乎没有任何的应用。在这篇论文里,我
其他文献
  本文介绍了关于和图的一些概念、术语、符号,而且给出了几个关于(整)和图与其它图参数、图结构联系方面的定理;确定了二正则图、皇冠图、残皇冠图、皇冠细分图与优皇冠图的
带自相容源孤子方程在物理中有着广泛的应用.近年来,该类方程的求解以及方程之间的B(a)cklund变换研究是孤立子理论和可积系统的热点问题之一.本文主要致力于带自相容源孤子方
动力系统就是要研究一个确定性系统的状态变量随时间变化的规律.根据系统变化的规律可分为由微分方程描述的连续动力系统和由映射迭代揭示的离散动力系统.大量的物理、力学、生
在(p)-混合样本下,探讨了固定设计回归模型的权函数估计的一致渐近正态性、收敛速度以及相关的应用。
分数微分方程是将整数微分方程或对应的积分方程拓广到任意阶微分方程或含有奇性核的积分方程,并逐渐发展成为微分方程的一个重要分支。近年来,分数微积分及分数微分方程在诸
本文在介绍了背景知识和基础理论后,又介绍了现代智能算法,并重点说明了粒子群算法,且做了改进。在粒子群算法中嵌入最速下降法,求解了实例,通过试验说明非常有效,然后,运用在传统算
本文利用广义凸性以及方向导数的性质讨论了向量优化问题的解与向量似变分不等式的解的关系,并讨论了不变单调映射与向量似变分不等式的关系,引入了摄动形式的广义Stampacchia
本文的研究工作之一是:对具有非线性边界阻尼和记忆源项的Kirchhoff型对偶波系统,得到了其解适定性及能量的一致衰减估计;当t→∞时,指出了阻尼Kirchhoff型方程的振动解呈现指数
复杂网络由于其在现实中有着广泛的背景,最近几十年来,得到越来越多的关注与研究。目前,对于复杂网络的类型、特性、拓扑结构以及网络中结点的动力学行为都有很多的研究与结论。
解析函数在计算机辅助几何设计中的应用是计算机图形学中新的问题之一。以往Bezier曲线的应用,由于函数不通过控制点,导致实际生产设计的偏差,同时由于数据个数,导致计算维数