论文部分内容阅读
随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃圾邮件问题日益严重。面对肆虐的垃圾邮件,人们采用了各种手段来对抗,垃圾邮件过滤技术是目前最主要的反垃圾邮件手段。本文研究垃圾邮件过滤技术中的一些关键问题。由于垃圾邮件往往有其用词、行文等内容上的明显特征,而且垃圾邮件所包含的话题一般不存在于正常邮件中,这使得应用文本分类的方法进行基于内容分析的垃圾邮件过滤变得非常有效,目前这已成为垃圾邮件过滤中一个新的研究热点。本文将其称为基于内容的垃圾邮件过滤技术。本文概述了现有的基于内容的垃圾邮件过滤技术,指出了其中的三个关键问题:分类算法,特征选择方法和中文词串切分算法。我们分别对这三个问题进行了对比实验并给出了实验的结果。实验结果显示,支持向量机分类模型以及基于信息增益的特征选择方法能取得比较好的结果。我们实现了单字切分、二元切分和基于字典的正向最大匹配三种中文词串切分算法,实验结果显示简单的二元切分能取得和正向最大匹配算法相当的效果,而单字切分出人意料地比这两者都要更好。另外,由于垃圾邮件过滤的特性,停用词和标点符号对正确过滤有帮助,不应去除。基于内容的垃圾邮件过滤器容易受到反过滤手段的欺骗。基于垃圾邮件发送者绝大多数情况下会在邮件中添加一个供读者点击访问的链接的事实,我们提出了一种新颖的基于邮件内含链接特征分析的垃圾邮件过滤技术。该技术提取邮件中与链接有关的特征,用支持向量机进行训练分类。实验结果显示这是一种快速有效的过滤技术。垃圾邮件过滤的一个重要趋势是综合各种单独的技术进行判断。本文最后在前文工作的基础上,研究并实现基于改进的AdaBoost算法的多过滤技术组合策略。这是综合各种技术实现实用的垃圾邮件过滤系统的关键问题。我们运用该策略取得了很好的实验结果,在相同的数据集上,超过了SEWM2008垃圾邮件评测竞赛第一阶段任务的最好成绩。