论文部分内容阅读
随着Internet的发展,电子邮件以其经济快捷的特点,成为网络时代人们最基本最常用的信息交换手段之一。但电子邮件给用户带来便利的同时,也遭到了一些人的滥用,结果就是有大量的垃圾邮件充斥Internet。这些垃圾邮件不但影响了正常的网络应用,也影响了人们正常的工作和学习,给用户和网络服务提供商ISP(Internet Service Provider)造成了巨大的损失。因此,如何对垃圾邮件进行有效地过滤是当前网络应用研究中的一个重要方向。本文对垃圾邮件的主要过滤技术进行了总结和分析,发现近年来垃圾邮件的防治工作主要是依靠技术方式来实现,一种很有效的手段就是在邮件传输代理MTA(Mail Transfer Agent)处判断出垃圾邮件并进行过滤。电子邮件有很多特点,其中邮件结构是由邮件头和邮件主体组成的,而邮件头有很多信息可以被用作判断垃圾邮件的重要依据,并可以根据部分头信息追踪出垃圾邮件的源头,对垃圾邮件发送者给以治裁和处理。LDAP目录服务被设计为对读密集型操作进行优化,使用LDAP来存储信息会大大提高服务器的响应能力,所以本文选择OpenLdap数据库服务器。从邮件样本中提取邮件头信息将其存入数据库,利用向量空间模型生成邮件头信息向量,对这些向量进行分析。针对样本集规模、分类精度、发生类别增量时离线训练时间和敏感词汇等问题,文中分别设计了四种智能邮件头信息分析机制,分别基于可伸缩决策树算法、变精度粗糙集决策树算法、适应类别增量的决策树算法和一种新的快速BP神经网络算法(Back Propagation)。利用这四种算法对邮件头信息进行分析,提取特征,‘得到垃圾邮件过滤规则,这样就可以把分析得到的结果直接应用到MTA处,实现对垃圾邮件的阻挡。为了验证设计的四种邮件头信息分析机制的可行性和有效性,本文对这些机制进行了实现,并对以下几个方面的性能进行测试:获取规则的时间,发现垃圾邮件的能力,正确判断垃圾邮件的能力,将正常邮件误判为垃圾邮件的比例。在对四个机制分别测试后还进行了综合比较,从测试结果可以看到,这些机制在性能上取得了比较令人满意的结果,在过滤垃圾邮件的应用中是可行的和有效的。