一种改进的贝叶斯决策算法的垃圾短信过滤系统

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:daguofan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代移动通信技术和手机短信业务的发展,由于手机短信廉价、快速、方便等特点,短信交流已经是人们日常生活的一部分。但是,由此也带来了问题,不良分子利用了短信业务成本低廉的特点,大肆发送垃圾短信,严重干扰人们的正常生活,特别是欺诈性短信的泛滥对社会造成了极其严重的危害。近年来,媒体曝光了许多关于垃圾短信的案例,足以可见垃圾短信过滤技术亟待完善。  短信过滤的主要技术包括:黑白名单过滤技术,关键词过滤技术,基于短信内容分类的过滤技术。但是,单独使用以上哪项技术都不能使短信过滤达到很好的效果。本文在上述三种短信过滤技术的基础上,针对朴素贝叶斯特征词条件独立的假设,提出了一种改进的类条件概率估值法及贝叶斯决策策略。该方法针对贝叶斯分类属性条件独立的缺点,利用改进的决策策略,对给定的短信语料库进行训练,得到过滤模型。并且对算法进行了测试,测试结果表明,改进的贝叶斯决策算法的文本分类器不仅训练简单,而且分类准确度高,解决了朴素贝叶斯算法的不稳定性。  本文的主要工作包括6个方面:(1)研究垃圾短信过滤不同环节的各项技术,对比各项技术使用不同方法的优缺点;(2)对垃圾短信内容伪装技术进行研究,实现对干扰字符、繁体字、拆分字、谐音字及停用词的处理;(3)比较不同的特征提取方法,提出综合词频、互信息的特征提取方法;(4)分析不同的文本分类技术及算法,基于贝叶斯分类算法,实现了一种改进的类条件概率估值法及贝叶斯决策策略的垃圾短信过滤系统,并取得了良好的实验效果;(5)提出一种反馈自学习机制,该反馈机制主要包括服务器的重新训练与用户反馈自学习两部分;(6)结合三种过滤技术,实现了Android手机客户端垃圾短信过滤系统,设计了良好的用户界面及反馈机制,在手机上取得了较好的实际应用。  本文的主要创新点为:提出综合词频、互信息的特征提取方法WFMI;实现了一种改进的类条件概率估值法及贝叶斯决策策略的垃圾短信过滤系统;提出了一种新的反馈自学习机制。
其他文献
学位
骨龄作为评价骨骼发育程度的数据指标,被广泛应用于临床医学、体育运动和法医学等领域。目前鉴定个体的骨龄主要是通过人工方式观察手骨X射线图像的每块骨骼的成熟程度,最终计
学位
学位
随着生命科学的发展,RNA新的功能被逐步的发现,对于RNA的研究已经成为当今生命科学领域的一大热点,RNA组学(RNomics)的提出更是将对RNA的研究推向了一个更高的境界。而作为研究
随着网络技术的快速发展和以云计算为代表的新兴计算方式的普及,面向服务的软件体系结构正日趋成为开发跨组织、跨平台的复杂软件系统的主流技术。鉴于网络环境的动态性,服务质
学位
近年来,大数据以数据量大、数据类型多样、难辨识、数据产生速度快和价值高的5V特性成为工业界和学术界关注的热点。另一方面,大数据存储和处理的需求也推动了技术的发展。作为
语义Web是一个具有丰富语义的数据网络,它通过语义Web标准、标记语言和处理工具对现有Web进行了扩展,使计算机可以更好地与用户协同工作。在语义Web的层次结构中,本体处于中心位
面对不确定、不完整和不一致的数据信息,粗糙集理论是一种很好的数学工具。经典粗糙集理论不适合有缺省数据的现象,即不适合不完备决策信息系统;在经典粗糙集理论中,分类分析必