基于在线学习的垃圾邮件过滤技术研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:lzzhong9910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件给人们的生活和工作带来极大的便利,但大规模的垃圾邮件严重影响了邮件正常使用。垃圾邮件消耗大量网络资源,损害用户利益,还会被一些别有用心的人用来散播虚假消息,危害社会安定。因此,垃圾邮件过滤技术已经成为当前研究普遍关注的热点问题。本文研究了基于机器学习理论的垃圾邮件过滤技术。由于该过滤技术具有正确率高,成本低等特点,已成为解决垃圾邮件过滤问题的主流方法。本文的研究内容主要分为以下几个部分:首先,研究了基于在线学习的垃圾邮件过滤技术的框架和过滤模式,并实现了基于朴素贝叶斯、基于逻辑回归和基于在线支持向量机等三种模型的垃圾邮件过滤器,并从过滤器消耗的时间和过滤性能等方面评价三种过滤器的优缺点。其次,研究了面向邮件过滤的特征工程,其中包括两部分内容:邮件的特征提取和特征选择。在特征提取部分,研究了基于词的特征提取方法和基于字节级n-grams的特征提取方法。在特征选择部分,研究特征选择方法,提出基于信息增益的特征选择方法和基于朴素贝叶斯统计的特征选择方法来解决在线支持向量机模型消耗时间过大的问题。同时,本文从过滤器核心评价指标1-ROCA的角度优化过滤器模型,提出了一种基于在线排序逻辑回归学习算法的垃圾邮件过滤器。最后,研究了含有噪声数据集对过滤器性能的影响。在实际系统中,用户给过滤器的反馈邮件不一定是完全正确的,必然存在噪声邮件。本文了创建了噪声邮件数据,分析了含有不同噪声数量的数据对过滤器性能的影响。
其他文献
雾天环境下,由于大气的散射作用,导致户外监控系统捕获的图像对比度低,景物不清晰的现象,给人类的生产生活带来了一定的影响,因此对雾天条件下降质图像清晰化方法的研究具有
论文围绕非参数正交多项式密度估计理论,以图像数据为研究对象,在总结国内外关于图像数据密度估计和分割、融合研究的基础上,提出基于图像数据的非参数正交多项式密度模型及正交
在数据挖掘产生巨大财富的同时,随之产生的就是隐私泄露的问题,如果数据使用者无法保护相关数据和知识,所采集到的数据往往和真实的数据间存在很大的差别甚至不能够完成数据
应急通信网络是在发生人为或自然灾害时搭建的通信系统,为救援行动提供安全可靠的通信服务。由于该网络应用的地理环境不可预期,而且可能会受到恶劣外界因素的干扰和破坏,这些将
面向服务的体系架构(Service Oriented Architecture, SOA)作为近年来IT业界的焦点,已经逐渐成为影响中国IT系统构建的主导思想。Web Service通过一系列的标准技术,已成为企业实
构建服装的虚拟模型在许多领域都有着非常广泛的应用,近年来许多服装重建新技术被提出来,其中大部分算法都需要服装的多视角视图,但是很多情况下服装的多视角视图是不具备的,
  高性能计算HPC(High Performance Computing)是验证计算机系统处理能力和计算速度的一种有效手段。如今,高性能计算在国内外受到高度重视,其地位与作用已被广泛接受,它已成
随着3G技术的发展,越来越多的移动终端加入到了基于无线连接的Internet网络,而在传统固线连接的Internet网络中取得巨大成功的P2P技术与无线网络相结合,形成移动对等网(Mobile Pe
电容层析成像技术(Electrical Capacitance Tomography,ECT)可视为目前最为广泛研究的一种过程层析成像技术,该技术具有非侵入、非接触、成本低等优点,从原理上讲只要各相具有不
本课题从电能质量决策者的数据分析需求出发,针对传统的查询分析方式在电能质量数据分析过程中的局限性,提出了基于OLAP技术的电能质量智能信息系统多维分析解决方案,以更加