论文部分内容阅读
随着互联网的普及,电子邮件已经成为人们生活中通信、交流的工具之一,但是随着电子邮件的广泛普及和电子邮件发送的低成本,人们面临的一个严峻的问题就是:任何人的电子邮件地址只要落入垃圾邮件制作者之手,便有可能收到未经请求的包含广告、不良信息等内容的电子邮件,使得人们无法阅读到正常的邮件。现在已经有了很多反垃圾邮件的方法,常用的有黑白名单、基于关键词匹配和基于规则的过滤等。
本文首先研究垃圾邮件的基本概念,根据不同的标准对垃圾邮件过滤技术进行了分类,分析比较了目前采用的垃圾邮件过滤技术,引入了一种惰性学习法K-最近邻。K-最近邻分类算法是最简单的机器学习算法之一。如果一个待分类样本在特征空间中的k个最邻近的样本中大多数都属于某一个类别的时候,那么该样本也属于这个类别。本文针对传统K-最近邻分类算法的缺点使用聚类算法和权值的方法来进行改进,减小了算法的计算量,提高了分类的精度。
本文重点从电子邮件的正文内容着手,使用文本分类的算法。文本分类的一个典型应用就是垃圾邮件过滤。垃圾邮件过滤中比较常用的文本分类算法有朴素贝叶斯、决策树等。将改进的K-最近邻算法应用于垃圾邮件过滤,在公用的邮件语料集上的实验表明,改进的K-最近邻算法效果比朴素贝叶斯方法要好。
最后,本文对整个设计与验证过程进行总结与展望,对如何进一步提高垃圾邮件的过滤问题也提出了思路,对如何进一步适应多种多样变形的垃圾邮件过滤研究工作进行了展望。