论文部分内容阅读
随着互联网的普及,电子邮件以其快捷,方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益严峻,它不仅传播有害信息,而且耗费大量的公共资源,侵害电子邮件用户和企业的合法权益。当前已经存在许多的垃圾邮件过滤方法,但是目前垃圾邮件不降反升的局面表明,虽然当前垃圾邮件过滤方法众多,但是还有许多垃圾邮件相关问题没有找到好的解决办法,垃圾邮件过滤效果不是很理想。所以,研究一种更加新型高效的,快速的邮件过滤系统仍具有特别的现实意义。支持向量机(SVM)是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。它不仅考虑了对推广能力的要求,而且追求在有限信息的条件下得到最优结果。其中,SMO方法是相对众多已有研究的SVM算法较为简单的算法,它将工作样本集中的样本数减少为2,避开了复杂的数值求解优化问题的过程,但是相应的代价就是迭代次数的增加。本文提出一种基于支持向量机理论的垃圾邮件过滤模型,模型使用的过滤算法是一种改进型的SMO算法-SMO主动学习算法。该算法能很好的继承SMO的优势,同时又解决SMO算法的不足,减少二次寻优的迭代次数。本模型主要以探索为目的,观察其可行性和有效性。初步实验证明,该模型具有过滤效果好,训练时间短的特点。本文首先介绍了垃圾邮件的基本常识,包括垃圾邮件的定义和危害,然后介绍了现有的垃圾邮件过滤方法。由于基于SVM的垃圾邮件过滤方法是以内容过滤为主,所以还着重阐述了与内容过滤相关的文本分类以及机器学习的知识。其次,介绍了统计学理论中SVM理论的定义和邮件样本预处理工作的内容,并由SVM理论引申出SVM垃圾邮件过滤算法,推导出SVM垃圾邮件过滤模型,在模型实现部分还给出了重点代码框架。最后是对SVM垃圾邮件过滤模型性能评估和对其性能优化的讨论。此外,论文中还讨论了反馈学习技术在SVM垃圾邮件过滤模型中的研究,希望能够在以后的工作中能够将我们的SVM垃圾邮件过滤算法与反馈技术相结合,确保实现过滤效果更优的垃圾邮件过滤模型。总之,本文提出的SVM垃圾邮件过滤模型的优点在于通过一种改进的SMO主动学习算法来改善传统SVM算法中由于样本数目较大时,占用大量内存以及在二次型寻优过程中要进行大量的矩阵运算的问题,并且通过主动学习的方法,