论文部分内容阅读
随着互联网的发展,电子邮件已经成为人们信息获取和信息交流的一个越来越重要的渠道,电子邮件已经成为互联网上最重要的应用之一。与此同时垃圾邮件成为作为互联网上的一个日益严重的全球性安全问题,越来越得到社会大众和研究人员的重视和关注。本论文对中文垃圾邮件的特点进行了比较系统的分析和研究,将贝叶斯学习分类方法做了一些适应中文语言的特点的改进,应用到中文垃圾邮件过滤这一领域。我们着重研究并定量比较了几种不同的token获取方法,包括基于词典的中文分词、N-gram方法和人工中文分词对于贝叶斯学习分类方法最终准确性和效率的影响。我们发现,和传统直观上基于词典的中文分词方法获得token相比,基于N-gram的token获得方法不但没有降低垃圾邮件分类的准确性,而且大大提高了其学习和分类算法的效率,获得了比原有方法快几倍的学习和分类速度。而且我们还发现N-gram方法对贝叶斯方法的性能的影响很大程度上依赖于我们选取的token的长度,最优的长度值介于2和3之间,这也是中文语言特性的一种反映。本文作者采用中国教育科研网(CERNET)收集并维护的大量中文垃圾邮件和正常邮件样本的标准数据集,对本文研究的方法进行了大量测试,准确率和误判率分别达到了97.2%和1.2%,结果表明本文的方法是十分有效的,而且由于不用切词,效率大大提高。本文的工作为贝叶斯学习分类方法在中文垃圾邮件过滤中的应用提供了一些理论分析和实验上的指导。本文也将我们修正的贝叶斯学习分类方法应用于在当前另一个新问题——垃圾短信中。我们发现,在中文垃圾邮件过滤领域取得很好效果的贝叶斯学习分类方法在垃圾短信过滤领域并没有取得预期的效果。说明对于垃圾短信需要针对具体问题具体分析,研究开发相应的适合特定问题的具体方法。在硕士论文的研究过程中,基于本文的方法,作者开发了客户端基于Windows操作系统数据包截取的中文垃圾邮件过滤系统。