论文部分内容阅读
随着因特网的普及,电子邮件在人们的日常生活中扮演着重要的角色,它以快捷、方便、低成本的特性吸引了众多用户,也因此成为了互联网上最重要、最普及的沟通工具之一。然而,随之诞生的垃圾邮件也越来越泛滥,给用户、网络管理员和网络服务提供商带来了无尽的烦恼,收件人的时间、带宽和存储资源也被无效占用,网络链路因此造成拥塞,还被作为不良信息的载体到处散发。如何有效地抵御垃圾邮件是全世界共同面临的一道难题,也是互联网上目前急待解决的问题。现有的反垃圾邮件技术虽从邮件传输的各个阶段都进行过滤或拦截,但由于垃圾制造者在不断地采取新的方法,从而使得过滤系统过滤垃圾邮件就显得力不从心。因此,研究更为有效的垃圾邮件过滤防范系统,是具有重要现实意义的课题。针对邮件传输的不同阶段和方式,本文提出了基于多种过滤技术相结合的过滤方案,建立了一套多层次的反垃圾邮件系统。邮件过滤主要从两个方面加于设计,首先是邮件外部特征的显式过滤,分别从黑白名单、发送者邮件地址、邮件接收者地址、邮件传送途径、邮件主题等的相关信息来给予邮件的第一级过滤,如果规则过滤对邮件的判别没有起到有效作用时,则进入本系统的第二级过滤,在这级过滤中,先使用信息增益法选取特征词,建立特征库,然后将改写后的朴素贝叶斯算法用于邮件的分类,在分类过程中,采取两种类型的测度,构成二维文本空间,将文本映射为二维空间中的一个点,将分类算法看作是在一个二维空间中寻找一条分割直线,根据文本点到这条分割直线的距离来判断该邮件为何类邮件。为了能更好地实现过滤效果,在二级过滤分类后的结果中,找出分错类的邮件,将它们进行再学习,重新调整特征库,然后再次测试,经由多次反复的学习、测试,最终精确邮件的分类。本文实验中采用n次交叉验证的方法,以收集的一些邮件为语料,应用朴素贝叶斯分类算法,通过训练集计算得到类别的先验概率和特征项的类条件概率,并以此为基础对测试集中的邮件进行归类判断,以准确率和查全率为指标给出了实验结果,最终产生了一个较其它单种邮件过滤方法更为高效的实验数据。