论文部分内容阅读
垃圾邮件的危害越来越大,已经严重危害了人民的生活和工作。针对垃圾邮件的防范研究是当前的一个研究热点,已经出现了许多优秀的垃圾邮件过滤技术和产品。然而,面对众多的垃圾邮件过滤产品,如何选择一个过滤效果好而又符合用户需求的过滤系统却依然没有一个好的依据。为此,本文以华东(北)地区网络中心为实验环境,以客观、公正为立足点,对影响垃圾邮件过滤系统过滤效果的评估指标、综合评估方法以及标准邮件集进行了研究,并依据研究的结果,设计和实现一个针对垃圾邮件过滤系统过滤能力的评估系统,为用户提供一个可以信赖的选择依据。
论文首先从现有的评估指标出发,参考相关研究领域的成果,总结、归纳和提出了四个基本指标,十二个合成指标和两个基于ROC曲线的指标的定义、计算方法及使用范围。在指标的计算中,论文首次将误报代价之比的概念应用到其中,提出“归一化”复合矩阵,从而屏蔽了垃圾邮件与正常邮件在重要性方面存在的巨大差异。
为给用户提供综合的选择依据,论文在第三章介绍了采用模糊综合评估方法、因子分析法和基于ROC曲线的ROCCH方法来综合评估多个过滤系统的原理和具体实现。前两种方法以当前的评估指标值为依据,判定当前配置下各过滤系统过滤能力的优劣次序。最后一种方法以ROC曲线为出发点,判定的是不同阀值下,过滤系统潜在的优劣顺序。
论文在第四章讨论了评测训练方法和标准邮件集对评估结果的影响。实验表明,评测训练方法和标准邮件集中的总邮件数量、垃圾邮件所占比例、训练邮件集所占比例、误报代价比以及邮件的顺序都将对评估的结果产生较大的影响。为此,鉴于现有公开的标准邮件集存在较多的缺陷以及为防止过滤系统刻意的适应静态的邮件数据,论文在第五章介绍了模拟标准邮件集生成系统的设计与实现。该系统能够根据用户的参数配置,动态生成能够用于评估的模拟标准邮件集。
依据上述评估指标和综合评估方法的研究成果,第五章还介绍了评估系统的设计与实现。依据该评估系统,第六章介绍了它采用生成的模拟邮件集和另一标准邮件集对六个垃圾邮件过滤系统的评估结果,并对评估结果进行了分析。
最后,本论文在第七章对论文的主要工作和研究成果进行了总结,并对垃圾邮件过滤系统评估研究的未来发展趋势做出了展望。