垃圾邮件过滤系统的评估系统的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:dxseu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件的危害越来越大,已经严重危害了人民的生活和工作。针对垃圾邮件的防范研究是当前的一个研究热点,已经出现了许多优秀的垃圾邮件过滤技术和产品。然而,面对众多的垃圾邮件过滤产品,如何选择一个过滤效果好而又符合用户需求的过滤系统却依然没有一个好的依据。为此,本文以华东(北)地区网络中心为实验环境,以客观、公正为立足点,对影响垃圾邮件过滤系统过滤效果的评估指标、综合评估方法以及标准邮件集进行了研究,并依据研究的结果,设计和实现一个针对垃圾邮件过滤系统过滤能力的评估系统,为用户提供一个可以信赖的选择依据。 论文首先从现有的评估指标出发,参考相关研究领域的成果,总结、归纳和提出了四个基本指标,十二个合成指标和两个基于ROC曲线的指标的定义、计算方法及使用范围。在指标的计算中,论文首次将误报代价之比的概念应用到其中,提出“归一化”复合矩阵,从而屏蔽了垃圾邮件与正常邮件在重要性方面存在的巨大差异。 为给用户提供综合的选择依据,论文在第三章介绍了采用模糊综合评估方法、因子分析法和基于ROC曲线的ROCCH方法来综合评估多个过滤系统的原理和具体实现。前两种方法以当前的评估指标值为依据,判定当前配置下各过滤系统过滤能力的优劣次序。最后一种方法以ROC曲线为出发点,判定的是不同阀值下,过滤系统潜在的优劣顺序。 论文在第四章讨论了评测训练方法和标准邮件集对评估结果的影响。实验表明,评测训练方法和标准邮件集中的总邮件数量、垃圾邮件所占比例、训练邮件集所占比例、误报代价比以及邮件的顺序都将对评估的结果产生较大的影响。为此,鉴于现有公开的标准邮件集存在较多的缺陷以及为防止过滤系统刻意的适应静态的邮件数据,论文在第五章介绍了模拟标准邮件集生成系统的设计与实现。该系统能够根据用户的参数配置,动态生成能够用于评估的模拟标准邮件集。 依据上述评估指标和综合评估方法的研究成果,第五章还介绍了评估系统的设计与实现。依据该评估系统,第六章介绍了它采用生成的模拟邮件集和另一标准邮件集对六个垃圾邮件过滤系统的评估结果,并对评估结果进行了分析。 最后,本论文在第七章对论文的主要工作和研究成果进行了总结,并对垃圾邮件过滤系统评估研究的未来发展趋势做出了展望。
其他文献
车辆防抱死制动系统ABS (Anti-lock brake system)是在传统的制动系统的基础上采用电子控制技术,在制动时防止车轮抱死的一种机电一体化系统。作为汽车制动安全系统的重要组成
一张完全空白的盘片是无法存取的,需要写入伺服信号后,磁头才能通过伺服信号进行定位。当前,对于高存储容量的磁盘的需求已经成为一种趋势,并且期望在同等容量下减小磁盘的尺
流媒体技术受到了人们越来越多的关注,在带来机遇的同时,也带来了挑战。如何提高流媒体系统的并发性能和可扩展性,来为大量用户提供高质量的流媒体服务体验,成为了一个迫切要解决
电子车牌制卡子系统是“青岛海关海运物流监控平台”的一个子系统。所谓电子车牌,就是基于射频识别技术(Radio Freqtzency Identification,以下简称RFID)开发的一种车辆身份自
随着移动技术的迅猛发展,不断有各种新的智能手机应用和服务涌现出来,包括短消息、网络浏览以及各种个人信息管理等多方面的内容。快速高效的中文输入法对于此类应用在中国的
实际业务流程的复杂多变常常使得业务系统的开发、维护过程异常复杂。本文针对复杂应用软件业务流程复杂易变的难题,提出了复杂业务系统描述模型CBSDM。CBSDM将业务系统划分为
移动Agent可以看成是人工智能与分布式计算技术相结合的产物。由于移动Agent计算模式自身的特点,使移动Agent技术在电子商务,远程教育,网络管理等领域有着广阔的应用前景。通
传感器网络由大量传感器节点组成,收集的信息量大,存在冗余数据。传感器节点的计算能力、存储能力、通信能量以及携带的能量都十分有限。数据汇聚是针对冗余数据进行网内处理
第一代 Internet 通过 TCP/IP 实现了计算机的互连:第二代 Internet 以 Web 技术为核心,实现了信息的一对多 B/S 模式的共享;随着信息的爆炸式增长、Internet的壮大及计算机硬件
随着基于P2P(Peer-to-Peer)技术的文件共享软件Napster、Gnutella、KaZaA等在Internet上引发的巨大浪潮,国际国内的学术团队也展开了对P2P技术的大力研究。比起传统的分布式系