论文部分内容阅读
电子邮件给人们的沟通交流带来极大的便利,与此同时也带来了新的问题,即大量垃圾邮件的出现。垃圾邮件占用大量的网络资源,侵犯个人隐私,给人们造成了很大干扰,因此研究如何过滤垃圾邮件具有重要的现实意义和实际应用价值。本文在贝叶斯垃圾邮件分类算法的基础上进行研究工作。该算法基于统计学中的贝叶斯定理,根据先验概率求出后验概率,从而达到将垃圾邮件从大量电子文件中剔除的目的。贝叶斯垃圾邮件分类算法在按照文本分类进行邮件过滤的研究领域得到了广泛应用。本文首先介绍了垃圾邮件过滤的研究背景、国内外研究现状以及常用的邮件过滤方法和技术。为了建立垃圾邮件剔除效果测试的比较标准,介绍了贝叶斯概率定理、本文使用的语料库以及引用文献中经常使用文本分类性能评价指标。本文重点在分析常用的特征表示和特征选择基础上,做一些改进工作。建立特征表示的指纹向量方法以及特征选择的CHI-XIG混合方法,初步分析这种新方法在垃圾邮件分类中的优越性,后续设计了仿真实验进行验证。实验结果显示在本文建立的特征表示和特征选择方法基础上,朴素贝叶斯算法邮件分类效果有显著提高。本文研究发现邮件头和邮件体在邮件分类过程中具有不同的作用,据此建立了给予邮件头和邮件体不同权重系数的加权贝叶斯邮件过滤模型。在实际使用中,邮件头和邮件体的权重系数从历史数据统计产生,利用加权贝叶斯邮件过滤模型计算得到邮件综合分数作为判断邮件类型的定量依据。仿真实验验证了加权贝叶斯邮件过滤模型在垃圾邮件分类中的明显优势。