论文部分内容阅读
数据挖掘是信息获取的重要手段,而分类在数据挖掘领域占有及其重要的地位。尤其近年来随着信息化时代的发展,数据规模不断增大,使得数据分类面临更加严峻的挑战。在海量数据中挖掘出足够有效信息的同时还需要保证较高的准确率,是数据分类研究中亟需解决的重要问题。在这种背景下,本论文针对算法准确率的提升和海量数据集的处理两大问题,以Hadoop平台和贝叶斯原理为基础,对海量数据挖掘中的分类方法展开研究,提出一种面向海量数据处理的改进贝叶斯分类算法。主要内容有:首先,研究了Hadoop平台的结构和分布式系统的构建,采用完全分布式的方式构建了基于Hadoop平台的分布式处理系统,并进行了测试;研究了朴素贝叶斯分类算法的原理和特点,针对本论文要解决的问题,给出了基于朴素贝叶斯算法的改进思想和具体方案。其次,为避免处理海量数据集时特征过多对特征关联计算效率的影响,围绕特征粗聚类,对最近邻优先吸收聚类方法和Canopy聚类算法展开研究,提出了基于最近邻优先吸收的改进特征粗聚类算法,并对其进行Map Reduce并行化实现,采用三组聚类数据集测试了改进算法的聚类效果;为了提高分类的准确率,围绕特征筛选和特征加权,对关联规则算法展开研究,对粗聚类子集进行类频繁项集挖掘,将生成的类频繁项集进行基于分类结果的特征筛选,并对特征筛选后的特征集进行特征加权,带入特征加权的贝叶斯公式进行计算,进而提出一种基于关联规则的类频繁项集挖掘方法,并采用三个数据集对其分类效果进行了测试。再次,针对大数据集的处理问题,实现了改进朴素贝叶斯分类算法的Map Reduce并行化。采用不同规模(不同特征数量和不同大小)的数据集对改进算法进行测试,并与传统的朴素贝叶斯算法和不同类变量下属性聚类的朴素贝叶斯分类算法进行对比。实验结果充分显示了本论文提出的面向海量数据处理的改进贝叶斯分类算法在提高准确率和处理海量数据方面的优势。最后,总结了本文的主要工作和创新,并进行了展望。