论文部分内容阅读
随着因特网的迅猛发展,在线的可用电子信息业迅速增加,电子邮件作为一种最快捷、最经济的通信方式也得到了飞速发展。但是同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器中的大量存储空间,用户往往要花费大量的时间去删除这些垃圾邮件。因此,研究邮件的自动过滤具有重要的意义。 目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另外还有一种就是从电子邮件的文本内容入手,使用文本分类算法,对邮件进行分类。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树等。基于概率的朴素贝叶斯算法具有方法简单、运算速度快、分类精确度高等优点,在文本分类中得到了广泛的应用。由于在邮件过滤过程中,合法邮件被误判为垃圾邮件将可能给用户带来据大的损失,因此在邮件过滤中就要采取适当的措施以减小损失。 具体来说,本文的工作主要包含以下内容: 1)简述了垃圾邮件问题的背景。包括垃圾邮件的定义、历史、泛滥原因以及危害。 2)概述了垃圾邮件过滤研究的现状。简要描述了一些基本概念和常用的垃圾邮件过滤算法。 3)介绍文本分类算法在邮件过滤上的应用,总结了常用的特征选择方法、分类算法以及通用的邮件语料库和垃圾邮件过滤的评价体系。 4)详细分析邮件过滤中的简单贝叶斯算法。介绍了贝叶斯分类方法的现状、贝叶斯算法的两种模型、基于最小风险的贝叶斯决策,以及垃圾邮件中的反馈学习和一些改进朴素贝叶斯分类器的建议,还在Ling-Spam语料上实验了朴素贝叶斯算法,比较了特征数量、垃圾邮件的阈值以及语料的预处理层次等因素对实验结果的影响。 5)综合各种过滤技术,设计了一个具有高度灵活性和可扩展性的客户端垃圾邮件过滤系统模型,总结了贝叶斯过滤算法的基本步骤,给出了一个贝叶斯过滤器的设计方案。