论文部分内容阅读
电子邮件给人们的生活和工作带来极大的便利,但大规模的垃圾邮件严重影响了邮件正常使用。垃圾邮件消耗大量网络资源,损害用户利益,还会被一些别有用心的人用来散播虚假消息,危害社会安定。因此,垃圾邮件过滤技术已经成为当前研究普遍关注的热点问题。本文研究了基于机器学习理论的垃圾邮件过滤技术。由于该过滤技术具有正确率高,成本低等特点,已成为解决垃圾邮件过滤问题的主流方法。本文的研究内容主要分为以下几个部分:首先,研究了基于在线学习的垃圾邮件过滤技术的框架和过滤模式,并实现了基于朴素贝叶斯、基于逻辑回归和基于在线支持向量机等三种模型的垃圾邮件过滤器,并从过滤器消耗的时间和过滤性能等方面评价三种过滤器的优缺点。其次,研究了面向邮件过滤的特征工程,其中包括两部分内容:邮件的特征提取和特征选择。在特征提取部分,研究了基于词的特征提取方法和基于字节级n-grams的特征提取方法。在特征选择部分,研究特征选择方法,提出基于信息增益的特征选择方法和基于朴素贝叶斯统计的特征选择方法来解决在线支持向量机模型消耗时间过大的问题。同时,本文从过滤器核心评价指标1-ROCA的角度优化过滤器模型,提出了一种基于在线排序逻辑回归学习算法的垃圾邮件过滤器。最后,研究了含有噪声数据集对过滤器性能的影响。在实际系统中,用户给过滤器的反馈邮件不一定是完全正确的,必然存在噪声邮件。本文了创建了噪声邮件数据,分析了含有不同噪声数量的数据对过滤器性能的影响。