论文部分内容阅读
数据挖掘就是从大量的数据中提取出人们感兴趣的知识的一个复杂过程。在数据挖掘的众多领域中,数据分类是其中的重要研究领域之一。分类就是一种对数据的分析手段,它的主要作用就是利用分类函数或分类模型把数据库中的各个数据项指定给某个给定的类中。分类有很多算法,其中贝叶斯算法是基于贝叶斯定理而展开的,具有坚实的数学理论基础。贝叶斯分类算法主要利用先验概率通过一系列的计算来得出后验概率。这种方法非常简单,而且利于理解,因此,贝叶斯算法被人们深入研究并应用于许多领域。贝叶斯算法又可以分为朴素贝叶斯算法和贝叶斯网络。本文的重点是对基于属性加权和归约的朴素贝叶斯算法进行研究。工作的内容和取得的成果如下:(1)基于属性加权的朴素贝叶斯算法研究。朴素贝叶斯算法具有简单、高效等特点,但是它完全忽略了属性之间的依赖关系,在属性之间依赖程度较高时,对分类效果的影响比较严重。针对朴素贝叶斯算法要求属性相互独立的前提,提出了一种基于属性加权的方法来削弱属性独立这个限定。在属性加权方法中,采用了协方差理论和卡方拟合统计量两种方法综合确定权重系数。协方差理论主要通过属性值的协方差来表达属性之间的关联,卡方拟合统计量则是采用属性出现的频数来确定权重系数,综合两种方法确定最终的权重系数。这样同时考虑了属性值和属性出现频数两个方面,比较好地表达了属性之间的依赖关系。通过三组对比实验证明,改进的算法在分类正确率方面有一定的提高。(2)基于归约的朴素贝叶斯算法研究。朴素贝叶斯算法只是对离散的数据有比较理想的分类效果,对于连续型数据和高维数据等都要先进行数据预处理才能进行分类。数据预处理包括离散化、降维等。本文针对朴素贝叶斯算法对高维数据不敏感的问题,采用多种维归约方法对高维数据进行降维处理,其中包括基于主成分分析,信息熵,独立成分分析等方法。对经过上述方法处理后的数据,再使用前面的加权朴素贝叶斯算法进行分类处理。通过实验证明,对经过不同的维归约方法处理的数据进行分类,其中主成分分析方法降维方面比较好,在分类正确率方面信息熵方法稍差一点。