基于属性加权和归约的朴素贝叶斯算法研究

被引量 : 0次 | 上传用户:babytoto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从大量的数据中提取出人们感兴趣的知识的一个复杂过程。在数据挖掘的众多领域中,数据分类是其中的重要研究领域之一。分类就是一种对数据的分析手段,它的主要作用就是利用分类函数或分类模型把数据库中的各个数据项指定给某个给定的类中。分类有很多算法,其中贝叶斯算法是基于贝叶斯定理而展开的,具有坚实的数学理论基础。贝叶斯分类算法主要利用先验概率通过一系列的计算来得出后验概率。这种方法非常简单,而且利于理解,因此,贝叶斯算法被人们深入研究并应用于许多领域。贝叶斯算法又可以分为朴素贝叶斯算法和贝叶斯网络。本文的重点是对基于属性加权和归约的朴素贝叶斯算法进行研究。工作的内容和取得的成果如下:(1)基于属性加权的朴素贝叶斯算法研究。朴素贝叶斯算法具有简单、高效等特点,但是它完全忽略了属性之间的依赖关系,在属性之间依赖程度较高时,对分类效果的影响比较严重。针对朴素贝叶斯算法要求属性相互独立的前提,提出了一种基于属性加权的方法来削弱属性独立这个限定。在属性加权方法中,采用了协方差理论和卡方拟合统计量两种方法综合确定权重系数。协方差理论主要通过属性值的协方差来表达属性之间的关联,卡方拟合统计量则是采用属性出现的频数来确定权重系数,综合两种方法确定最终的权重系数。这样同时考虑了属性值和属性出现频数两个方面,比较好地表达了属性之间的依赖关系。通过三组对比实验证明,改进的算法在分类正确率方面有一定的提高。(2)基于归约的朴素贝叶斯算法研究。朴素贝叶斯算法只是对离散的数据有比较理想的分类效果,对于连续型数据和高维数据等都要先进行数据预处理才能进行分类。数据预处理包括离散化、降维等。本文针对朴素贝叶斯算法对高维数据不敏感的问题,采用多种维归约方法对高维数据进行降维处理,其中包括基于主成分分析,信息熵,独立成分分析等方法。对经过上述方法处理后的数据,再使用前面的加权朴素贝叶斯算法进行分类处理。通过实验证明,对经过不同的维归约方法处理的数据进行分类,其中主成分分析方法降维方面比较好,在分类正确率方面信息熵方法稍差一点。
其他文献
针对锂离子电池在变电流放电过程中荷电状态SOC(state of charge)估算精度的问题,提出了一种基于改进扩展卡尔曼滤波EKF(extended Kalman filter)算法的新估算方法。首先,通
随着外资银行的涌入和股份制银行的迅速崛起,国有商业银行正面临着巨大的人才竞争压力。综合柜员是银行的基础力量,是银行与客户沟通的最主要的载体,对他们的激励关系到整个
珍贵乡土树种因社会对其木材的市场需求增加而在近年得到快速的发展。壳斗科(Fagaceae)树种青钩栲(Castanopsis kawakamii Hayata)、麻栎(Quercus acutissima Carruth.)是广
合作学习主要是通过英语教学中的集体因素和学生间交流的社会性作用、学生的互帮互学来提高学生学习的主动性,提高学习的质量,它是以英语教学中的集体形成和人际交流的规律性
在旧水泥路面上加铺沥青层是一种非常典型的补强方法。对于水泥路面,这种形式的路面结构能吸收两种材料的优点,原有水泥路面可以提供稳定、坚实的基层,沥青面层可以提供摩阻
高中体育特长生作为高等院校体育专业生源以及各运动专业队的后备人才的重要组成部分,同时高中体育特长生是展现学校体育成果的直接角色,了解调查研究体育特长生的在校的情况,探
法国传统左翼政党陷入困境,J.梅郎雄(Jean-Luc Mélenchon)作为激进左翼政党的典型代表,先成立法国左翼党,与新自由主义化的社会党决裂,与法共等政党结成左翼阵线,实现了激进
燕麦蛋白质是优质的植物蛋白。本研究以山西省特色小杂粮燕麦为研究对象,选用新品种晋燕14号为研究材料,分别优化了碱提酸沉法和酶法提取燕麦蛋白的工艺;在此基础上,用SDS-PA
“三农”问题,即“农业增效问题”、“农村发展问题”、“农民增收问题”历来受到党和各级政府的高度重视,其核心的问题还是在于“农民增收问题”。改革开放以来,天津的经济
互联网的崛起,是近二十多年来在中国发生的最具革命意义的重要事件之一。信息全球化已经成为现时代的典型标志,信息的无约束性势必会在某种层面对行政管理产生新的挑战和影响,例