论文部分内容阅读
互联网的发展逐渐改变了人们的生活方式,电子邮件因其方便、快捷的特点已受到人们的青睐,许多重要信函也会通过电子邮件的方式传送。但是,许多垃圾邮件同时也在网络中蔓延,占据了邮件服务器的大量存储空间,用户往往需要花费大量的时间去删除这些垃圾邮件。因此,研究邮件的自动过滤具有重要意义。
旨在解决互联网垃圾邮件泛滥的现状,规范网络邮件的使用方式,论文作者所属课题组依托国家高技术研究发展计划(863计划)—“多特征智能反垃圾邮件系统和标准研究与实现”课题,设计并研发了实时、高效的智能型电子邮件过滤系统。作为过滤系统的研发人员,作者参与了系统的模块规划和功能设计。虽然过滤系统初步投放市场试用时获得相当不错的使用情况反馈,但是系统在自身网络安全方面缺乏足够的保证,而且纯粹的基于特征字串匹配的邮件过滤模块对于垃圾信件的查准率已经不能满足日益提高的过滤系统用户的产品需求。
围绕现有电子邮件过滤系统的性能增强与功能丰富这一中心,作者在以下几方面深入展开了论文的研究工作。
第一,通过深入分析主要电子邮件协议的安全性,论文总结了当前互联网垃圾邮件盛行的本质原因。
第二,面向呈现内容各异的垃圾邮件,论文全面综述了垃圾邮件的类型特征和现有的电子邮件过滤技术。
第三,详细介绍了邮件过滤系统的体系结构,并分别描述了系统各个组成模块的结构与工作原理。 在此基础上,作者分析了原有系统的不足之处,并针对性的提出了系统的安全增强与功能模块改进方案。
第四,首先介绍了邮件头部信息的特征表达方法和特征选取算法,接着对支持向量机技术进行了详细的介绍,最后说明了基于支持向量机的邮件过滤方法。
第五,论文把邻近类别分类的过滤思想引入前置式电子邮件过滤系统,详细阐述了该模块的文本预处理技术,文本特征表达,文本特征选择等算法,给出了邻近类别分类器的构造与整个模块的工作流程。
最后,作者进行了若干实验,给出了实验结果。实验结果表明,对应方案能够相当显著地提高过滤系统对于垃圾邮件的查准率,同时邻近类别分类器的加载对于过滤系统运作效率的影响并不明显。