论文部分内容阅读
电子邮件系统是目前互联网上最普及的应用之一。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人为的滥用。当今垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害。目前,在打击垃圾邮件的技术中,基于贝叶斯算法的垃圾邮件过滤成为目前最有效的方法之一。贝叶斯过滤方法在分类的效果上有很大优势,因此逐渐被广泛接受。
本文主要研究贝叶斯算法及其在垃圾邮件过滤上的应用,其具体内容如下:
(1)对朴素贝叶斯算法进行了详细的研究,且提出了三个方面的改进思路。在文本表示方面,提出指纹特征的表示方法;在特征选择方面,提出了基于类条件分布的特征选择方法:在阈值判断过程,根据学习的不断深入性,提出了阈值动态调整算法。本文对这三个方面的改进,都进行了实验证明。
(2)分析邮件结构特点,从邮件结构不同于普通文本出发,提出集成加权模型。集成加权模型对邮件头和邮件正文分别建立模型,并通过加权方法集成二者结果,对垃圾邮件进行过滤。本文实现了集成加权模型,并且与普通模型进行了实验对比。
(3)研究了最小风险贝叶斯算法和主动学习贝叶斯算法这两种贝叶斯算法的扩展模型。最小风险贝叶斯算法能够减少正常邮件判为垃圾邮件的风险,而主动学习贝叶斯算法主动训练样本集,能够降低样本顺序对过滤精度的影响。
最后本文综合各方面的改进效果,设计了一个贝叶斯过滤器,并在标准数据集上进行测试。测试表明与经典的贝叶斯过滤器Bogofilter相比,过滤精度有较大的提高。