基于SVM的电子邮件分类系统研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:starylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件是Internet上最广泛使用、最受欢迎的网络功能。随着计算机信息技术的普及,它现在已经演变成为一个更加复杂并丰富的多的系统,可以传送声音、图片、图像、文档等多媒体信息,以至于如数据库或账目报告等更加专业化的文件都可以电子邮件附件的形式在网上分发。现在,电子邮件已成为许多商家和组织机构的生命血脉。用户可以通过电子邮件的讨论会进行项目管理,并且有时要根据快速,或洲际的电子邮件信息交换进行重要的决策行动。然而随着电子邮件数量的增多,如何对电子邮件进行有效的分类,并且过滤出垃圾邮件,成为一个令很多用户烦恼的问题。支持向量机是基于统计学习理论的新一代学习机器,具有很多吸引人的特点,它在函数表达能力、推广能力和学习效率上都要优于传统的人工神经网络。近十年来, Vapnik等人在统计学习理论SLT的基础上发展了SVM算法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其它机器学习问题。很多学者认为,它们正在成为继模式识别和神经网络研究之后机器学习领域中新的研究热点,并将推动机器学习理论和技术有重大的发展。SLT体系及其SVM算法在解决“小样本难题”过程中所取得的核函数应用等方面的突出进展令人鼓舞,已被认为是目前针对小样本统计估计和预测学习的最佳理论。本课题基于支持向量机方法对电子邮件分类进行了研究和实现,主要包括以下内容:1、介绍电子邮件的相关理论。阐述了电子邮件的格式,其次分析了电子邮件的传输原理、相关协议和标准,并详细阐明了邮件分类的国内外研究现状,为本课题的全面开展奠定了基础。2、讨论了支持向量机的思想、方法、应用和特点以及国内外研究动态,分类问题。3、研究了文本分类的定义、评估方法。最后详细探讨了中文文本的分类过程:文本的表示、特征项的抽取以及文本的训练方法和分类方法。4、本文设计并初步实现了一个基于支持向量机的自动邮件分类系统。该系统位于邮件客户端,能对已有邮件样本进行自主学习,并自动从邮件服务器接收新到邮件进行分类和垃圾过滤。论文的不足在于要对支持向量机做更深入的研究,并适当修改算法,以提高分类速度,还要对特征词筛选方法进行系统研究,挑选出最适合邮件过滤的特征项选择方法,为提高分类效果需要广泛收集邮件样本进行训练。论文肯定还有许多不完善的地方,相关工作还有待进一步研究。
其他文献
图像分割是图像处理的重要研究内容之一,基于水平集方法的几何变形模型由于其拓扑自适应能力和稳健的数值性态在图像分割等诸多领域得到广泛应用,变分水平集方法不仅具备上述水
面向对象软件功能的正常运行依靠程序代码中各个类之间成功的交互。单个类运行正常,但是当它们结合在一起时也许会出现新的问题。本论文提出了一种加强类之间集成测试的技术,这
焦炭是冶金生产不可缺少的原料之一,焦炭质量的好坏直接影响到冶金产品的质量。焦炉作业计划对焦炉生产是否能稳顺进行起着重要的作用。合理制定推焦计划,实行焦炉作业的优化调
目前集群通信在国际上已经发展到一定的成熟地步,国际主流主要存在着两大标准:欧洲电信研究所提出的TETRA体系以及摩托罗拉提出的iDEN体系,国内主要是中兴通讯的GOTA体系,以及华
随着Web Service技术本身的不断成熟,基于Web Service组合/协作技术的服务计算已成为当前软件技术的一个发展热点和重要发展方向。在当前众多的Web Service组合/协作技术中,分
生物免疫系统与计算机入侵检测系统在功能上有很大的相似性,入侵免疫系统的主要功能是检测内部或者外部的侵入,使计算机免受攻击。而生物免疫系统的功能是保护生物体不受细菌,病
随着网络技术的飞速发展,WEB 应用系统得到了越来越多的应用。而每个应用系统往往都有自己的一套用户认证和授权方法,为了对用户进行统一的认证和授权管理,所以有必要将不同系统
预测是作决策、规划之前必不可少的重要环节和前提。时间序列预测是预测领域的一个重要研究方向,时间序列预测问题在气象、天文、电力、医学、生物、经济、金融和计算机等各
随着Web技术的广泛应用,许多企业都迫切要求快速、高效地构建自己的Web业务系统。J2EE(Java 2 Enterprise Edition)是sun公司提供的一个标准的企业应用开发平台,它为我们开发
由于现代企业的日常业务运转越来越离不开IT系统的支持,所以IT系统的良好性能已经成为每个公司关注的问题。各种IT基础架构的性能是整个IT系统性能的基础,为保证其性能,产生了各