论文部分内容阅读
1978年,从DEC公司的一名市场销售代表向所有美国西海岸的ARPANET用户发送了一封关于DEC-20新型计算机广告邮件的这一刻起,人类史上第一封垃圾邮件诞生了,从此垃圾邮件伴随着信息时代的发展而发展,不曾消失。垃圾邮件的出现给网民的生活带来了巨大的影响,根据《2013年第一季度中国反垃圾邮件状况调查报告》显示:2013年第一季度,中国电子邮箱用户平均每周收到垃圾邮件数量为14.6封,占所有邮件的比例为37.37%,造成了大量的不良影响,包括浪费时间、浪费电脑及网络资源、传播病毒、影响用户情绪和造成经济损失等。针对日益严重的垃圾邮件问题,研究人员提出了大量的垃圾邮件过滤技术用于改善被垃圾邮件充斥的互联网环境。目前的垃圾邮件过滤技术在判断的准确性上已达到较好的效果,但在计算时间上往往很固定,不能达到用户即需即得的效果。针对这一问题,研究人员提出了AAPE分类模型。AAPE(Anytime Averaged Probabilistic Estimators)分类模型是一种基于贝叶斯估计的anytime分类模型,由杨影博士提出,应用于反垃圾邮件领域。本文首先对垃圾邮件的背景和危害进行了介绍,简单了解了电子邮件的工作原理,由此明白了垃圾邮件可能利用的漏洞。然后,深入解剖AAPE分类模型的优点与不足,针对部分地方进行了改进,设计出一款基于改进AAPE分类模型的垃圾邮件过滤系统。最后,通过测试结果,对改进的AAPE分类模型进行分析,证明其相比较原模型有更高的效率。本文的主要研究成果如下:对传统AAPE分类模型进行改进,根据特征项的相关性强弱程度,采用期望交叉熵、统计量和互信息三种方法计算强相关特征项,并应用于垃圾邮件过滤技术。根据实验测试结果对改进后的AAPE分类模型进行分析,证明该模型较原始AAPE分类模型在时间性和准确性上有较大提升。设计了一款以改进后AAPE分类模型为基础的垃圾邮件过滤系统,该系统采取双层过滤架构,第一层使用黑白名单技术对所有邮件进行简单的、快速的邮件过滤,第二层使用以AAPE分类模型为基础的智能过滤,进行深入过滤,确保系统的即时性和准确性。