基于LDAP的智能邮件头信息分析机制的设计与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:gzqeedaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,电子邮件以其经济快捷的特点,成为网络时代人们最基本最常用的信息交换手段之一。但电子邮件给用户带来便利的同时,也遭到了一些人的滥用,结果就是有大量的垃圾邮件充斥Internet。这些垃圾邮件不但影响了正常的网络应用,也影响了人们正常的工作和学习,给用户和网络服务提供商ISP(Internet Service Provider)造成了巨大的损失。因此,如何对垃圾邮件进行有效地过滤是当前网络应用研究中的一个重要方向。本文对垃圾邮件的主要过滤技术进行了总结和分析,发现近年来垃圾邮件的防治工作主要是依靠技术方式来实现,一种很有效的手段就是在邮件传输代理MTA(Mail Transfer Agent)处判断出垃圾邮件并进行过滤。电子邮件有很多特点,其中邮件结构是由邮件头和邮件主体组成的,而邮件头有很多信息可以被用作判断垃圾邮件的重要依据,并可以根据部分头信息追踪出垃圾邮件的源头,对垃圾邮件发送者给以治裁和处理。LDAP目录服务被设计为对读密集型操作进行优化,使用LDAP来存储信息会大大提高服务器的响应能力,所以本文选择OpenLdap数据库服务器。从邮件样本中提取邮件头信息将其存入数据库,利用向量空间模型生成邮件头信息向量,对这些向量进行分析。针对样本集规模、分类精度、发生类别增量时离线训练时间和敏感词汇等问题,文中分别设计了四种智能邮件头信息分析机制,分别基于可伸缩决策树算法、变精度粗糙集决策树算法、适应类别增量的决策树算法和一种新的快速BP神经网络算法(Back Propagation)。利用这四种算法对邮件头信息进行分析,提取特征,‘得到垃圾邮件过滤规则,这样就可以把分析得到的结果直接应用到MTA处,实现对垃圾邮件的阻挡。为了验证设计的四种邮件头信息分析机制的可行性和有效性,本文对这些机制进行了实现,并对以下几个方面的性能进行测试:获取规则的时间,发现垃圾邮件的能力,正确判断垃圾邮件的能力,将正常邮件误判为垃圾邮件的比例。在对四个机制分别测试后还进行了综合比较,从测试结果可以看到,这些机制在性能上取得了比较令人满意的结果,在过滤垃圾邮件的应用中是可行的和有效的。
其他文献
根据最新的研究发现,软件测试的成本已经占到了整个开发成本的40%到60%。人们希望能降低测试成本,同时进一步缩短软件的开发周期,测试人员也希望摆脱简单重复的测试工作。由于在一
当今,生物科学技术迅猛发展,无论从数量上还是质量上,都极大地丰富了生物科学的数据资源。计算机技术和网络技术日益渗透到生物科学的各个领域,一门崭新的,拥有巨大发展潜力的学科
随着高性能计算和互联网技术的不断发展,数据的规模出现快速增长,系统面临的数据存储和管理需求也越来越高。在计算机系统中,现在的处理器的性能得到快速提高,但存储能力却成为了
流媒体技术的出现使得多媒体通过网络从媒体服务器上向终端的持续实时传输成为可能。目前的大部分流媒体软件是基于C/S模式,服务器端的负载与流量等瓶颈制约了系统的扩展性和
知识获取就是通过一定的技术手段从海量数据库中发现潜在的、有价值的信息,并以此为人们的行为提供辅助决策。现实生活中的数据不可避免地存在重复、遗漏和不一致等问题,给知
随着网络技术和计算机图形学的不断发展,3D游戏已经越来越受到广大青少年的喜爱,各种各样的游戏层出不穷,如“魔兽世界”、“孤岛惊魂”等。然而,目前我国的网络游戏市场却基
随着网络技术的快速发展和普及,Web已经成为一个巨大的信息源集合,拥有着海量信息。Deep Web是由Web中可在线访问的数据库构成,具有信息量大、结构化程度高、领域覆盖全面等特点
随着Internet的深入发展,互联网上的用户数量和应用规模都急剧膨胀,这种爆炸性的增长所带来的一个严重问题就是网络拥塞。现今,拥塞已经成为一个十分敏感而重要的话题,而其控
随着2006年底保险业入世过渡期的结束,国内保险主体的增多,中国保险业面临着国外保险同行的激烈竞争。虽然保险业至2001年以来作为我国发展最迅速的行业之一,但是其保险密度和深
学位