论文部分内容阅读
信息化时代,垃圾邮件被认为是最有效和最廉价的广告形式,诱惑一些投机者采用这种新的途径传播信息。垃圾邮件严重干扰人们正常生活,浪费用户的时间、精力,更为严重的是造成信息安全隐患,损害ISP的市场形象,造成无形资产流失,而且垃圾邮件对网络资源消耗和网络安全的危害也越来越大。本文主要研究的是邮件用户代理过滤,即客户端过滤,扩展邮件代理工具Outlook的垃圾邮件过滤功能,实现用户个性化设置。目前以文字方式传播垃圾邮件还是主要的途径之一,因此本文研究的是基于内容检索的垃圾邮件过滤方法。该方法主要分两个阶段,训练阶段和分类阶段。在各个阶段中主要包括五个主要步骤:邮件预处理,文本表示,特征选择,分类预测和评价邮件过滤质量。其中重点研究了两个核心步骤——特征选择和分类预测进行研究。首先分析了八种常用的特征选择方法,如文档频率、信息增益、互信息、CHI统计法、期望交叉熵、文本证据权、优势率和相关性得分。特别是对互信息法进行深入研究后发现:当某一特征词仅在一个类别中出现时,此时互信息值彼此相等,这样导致无法区分它们之间的重要程度。从这一点出发,本文得出改进后的互信息法——利用调整后的TFIDF权重函数对这些特征词再次衡量,使得特征词有了更好的区分类别的能力。此外,本文还对两种常用分类算法进行研究:贝叶斯分类和支持向量机。在实验分析部分,本文选取常用的Ling-Spam标准邮件集。从四个方面对各种算法进行测试,即不同的特征选择方法、维数、分类算法和训练集个数,采用F1值和虚报率对结果进行评价。实验结果表明,改进后的互信息的相比其他算法的稳定性要好。最后以Outlook外接程序形式实现一个垃圾邮件过滤子系统,在实际应用中能满足垃圾邮件过滤功能。