基于属性选择加权的朴素贝叶斯算法的改进与应用

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:st_daivd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的普及、大数据时代的到来,数据深度分析的需求也越来越大,数据挖掘技术便是一种实现从信息到知识转变的有效工具。而朴素贝叶斯算法是国际权威的数据挖掘学术会议评选出来的数据挖掘领域的十大经典算法之一,朴素贝叶斯模型发源于古典概率论,有着坚实的数学基础,以及稳定的分类效率。同时,它所需估计的参数少,对缺失数据不太敏感,算法也比较简单。理论上,朴素贝叶斯模型与其他分类算法相比具有最小的误差率。但是由于其假设属性之间相互独立,而实际应用中这个假设往往不成立。在属性个数较多或者属性之间相关性较大时,模型性能会降低。本文主要针对朴素贝叶斯算法的不足在属性选择和属性加权两个方面对其进行改进。在属性选择方面,先引入信息价值指标,得到第一个与类别相关度较高的属性子集,然后在此基础上进一步过滤冗余属性,得到第二个属性子集,分别在这两个属性子集上构造朴素贝叶斯分类模型。分析发现对初始属性集合进行两次属性选择构造的朴素贝叶斯分类模型既实现了属性降维的目的又提高了分类准确率。在属性加权方面,通过层次分析法量化经验知识,对样本训练的权值进行调整,得到更加全面的权值,根据属性取值的重要程度对朴素贝叶斯分类计算公式中的后验概率加权,提高分类准确率。然后结合属性选择和属性加权的优势,对朴素贝叶斯算法进行选择加权,该算法先通过信息价值指标对初始属性集进行二次属性选择,再通过层次分析法计算权值,在最优属性子集上构造加权朴素贝叶斯分类器,并在通用数据集上进行实验验证。最后将改进的朴素贝叶斯算法合理地应用到电信行业的垃圾短信用户识别模型中,通过在Spark平台上进行实验分析证明其有效性,从而进一步提高垃圾信息治理工作效果,优化垃圾信息治理的技术。
其他文献
当前,在作风建设的高压态势之下,“四风”问题在总体上得到了一定程度的遏制,但并没有绝迹,并出现了各种隐形变异。对此,必须高度警惕,坚定改进作风的信心和决心,坚决防止“四风”问
报纸
【摘要】在现行的考试制度下,教师在数学概念教学中持有“注重解题,忽视概念”的思想,使得概念教学活动和解题教学存在脱节情况,严重影响了学生的解题质量和效率.高中数学新课程标准中“双基”的具体目标是“获得必要的数学知识和基本技能”,概念教学是其核心内容.作为高中数学教师,应当深入了解概念教学的误区,并走出教学误区,创造性地对教材进行分析和整合,优化高中数学概念教学,让学生在数学学习中得到更好的发展. 
基于体内转化的毒性研究至关重要,但难以实时动态观察,本文提出斑马鱼毒/代(毒性/代谢)同步进程法,并用于揭示淫羊藿中毒及其配伍巴戟天后的减毒作用。将受精后1天(1 dpf)的
植物细胞的悬浮培养是生产药用植物及其次级代谢产物的重要途径。但是以往的工业化应用进展表明,该技术在工程放大过程中依然存在较大的困难。红花是预防和治疗心脏病的常用