基于贝叶斯分类的垃圾邮件过滤技术研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:fq8628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,电子邮件以方便、快捷、环保等优点成为人们日常生活工作中不可或缺的一部分。但与此同时,垃圾邮件的出现对用户造成了严重的影响,给社会带来了极大的财产损失和安全威胁,因此研究垃圾邮件过滤技术具有重要意义。本文在基于目前现有的理论和研究基础之上,对垃圾邮件过滤方法进行了系统的介绍,针对当前朴素贝叶斯算法过滤垃圾邮件时尚且存在的不足进行了一定的改进。主要研究内容如下:(1)深入研究反垃圾邮件相关技术,包括邮件的预处理、文本表示模型、特征提取等等。着重研究了朴素贝叶斯分类算法的原理及其来源,并分析它在文本分类方面的优缺点。(2)分析随机森林算法的原理以及在特征选择方面的优势,提出使用随机森林结合朴素贝叶斯的分类算法。针对垃圾邮件过滤系统中普遍存在的维数灾难的问题,通过随机森林特征选择过滤掉邮件集中基尼不纯度为0的特征词,由朴素贝叶斯算法计算出特征选择后的测试邮件的后验概率,得出测试邮件所属类别。(3)提出基于树结构的朴素贝叶斯分类算法。针对朴素贝叶斯算法在分类前期的训练阶段大量消耗系统和网络资源,严重影响分类效率的问题,提出使用树结构代替算法中原本使用的数组来维护训练样本中特征词出现的次数;针对朴素贝叶斯算法在邮件样本属性个数较多时,分类效果较差的问题,对特征词条件概率进行开方处理。(4)通过设计的邮件过滤系统对过滤算法进行分类性能测试。实验结果表明,结合了随机森林的朴素贝叶斯算法较原有算法在分类性能上效果更好;基于树结构的朴素贝叶斯算法较原有算法在邮件样本训练过程中耗时明显减少,随着样本的不断增加,训练耗时也只是缓慢增长,通过选取合适的开方次数z值,来降低垃圾邮件的误判率,使得改进后的算法在垃圾邮件过滤方面具有更好的效果。
其他文献
<正>民间信仰与道教有密切关系。道教最高尊神为三清,即玉清仙境元始天尊,上清仙境灵宝天尊,太清仙境道德天尊(太上老君),他们住天界仙境,也许离人间太高远了,民间影响不大。
会议
垃圾邮件开始泛滥于20世纪末期,具有成本低廉,传输便利,诱导性强等特点。某些商业组织利用此契机作为谋取利益的一种手段,肆意传播垃圾邮件。垃圾邮件的广泛传播给人们的工作
用二次规划法研究图的边邻域完整度.分析图的边邻域完整度给定条件下图可能具有的最大、最小边数问题;讨论图与其破边子图的边邻域完整度之间的关系;给出圈及圈的平方的边邻
人工骨移植正在成为自然和非自然状况下骨缺失修复的—种重要方式。理想的人工骨植入物需要有准确的缺损部位外形,气孔贯通的内部结构,以及与天然骨相似的力学性能和生物相容
随着电子商务的不断发展,为农民的生活带来便利的同时,也开创了新兴的产业。农村电商这项新兴产业的兴起,在创新农产品、解决"三农"问题上发挥了重大作用。文章针对农村电子
电网侧储能有效增加了电网的调节手段和能力,有助于电网安全稳定运行。随着新能源高比例渗透和特高压电网的快速发展,系统波动等电网安全问题日益严重,电网需要构建高比例、
本论文制备了不同组成的Cu(Ⅱ)-SiO2复合溶胶电解液,采用恒电位电化学方法制备了复合薄膜,对其电化学形成机理进行了研究。以醋酸铜(Cu(Ac)2)为铜源,正硅酸乙酯(TEOS)为硅源,柠檬酸钠
本研究由以下四个方面的内容构成:一是兰花花粉块的扫描电镜观察及花粉贮藏研究,尝试通过此途径为科研和生产实践中亲本的分类及选配提供初步的依据;二是开展了国兰杂交育种