基于用户行为关系和内容的邮件分类算法的研究与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:liongliong435
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
邮件在人类通信上的地位越来越重要了,在给人们带来便利的同时,也使得人们不得不花费大量时间来处理大量的邮件。随着邮件的普及,人们在处理邮件上花费的人力和财力就越来越多。因此构造一种新的有效的邮件分类算法就变得尤为迫切。本文研究的主要问题是邮件分类,该问题的重点在于训练数据集不平衡。不平衡数据分类是最近几年的比较热门的问题,所谓不平衡数据集是指不同类别的数据在数量存在巨大的差距。不平衡数据集会导致在分类过程中,分类器偏向数量比较多的类别。对于我们更想获取的数量较少的类别无法有效的识别。针对数据不平衡问题,目前比较流行的解决方法有两种:改变数据分布和调整分类算法。本文结合这两种方法,提出了一个多层次的分类器算法,该算法结合邮件内容和用户行为关系。该算法通过一级级的过滤,不断的降低样本的不平衡性,最终在最后一级实现数据的相对平衡。另外,现在的邮件分类算法一般是针对邮件内容的,忽略了邮箱地址在邮件分类中的作用,实际上,同一封邮件由不同的人发送给我们,由于发件人与收件人关系,这些邮件会被区别对待。因此在本文中,充分的考虑了邮箱地址对信息,结合用户行为关系和内容对邮件进行分类。在算法的实现过程中,使用了很多传统的机器学习的分类算法,比如朴素贝叶斯、支持向量机,随机森林等算法。利用邮箱地址对训练生成的分类器模型,结合生成基于邮件内容的多层次邮件分类器实现了对不平衡邮件的分类,并且取得了相对较好的效果。
其他文献
知识发现是当前计算机科学与人工智能领域最为活跃的研究课题之一,粗糙集由于其特有的优势,成为了知识发现领域非常重要的理论。而连续属性离散化是利用粗糙集进行知识获取所
分类是机器学习的主要任务之一。生活中的一些决策问题便可以看作分类问题,比如与人们健康紧密相关的疾病诊断。分类算法将会从训练样本中训练合适的模型从而给出更加智能的
工作流的概念起源于生产组织与办公自动化领域。工作流就是工作流程的计算模型,即将工作流程中的工作任务前后组织在一起的逻辑和规则,在计算机中以恰当的模型进行表示并对其实
随着信息技术的不断发展,抄袭正变得越来越容易和难以防范。在程序设计类课程作业和在线测试的考评中,学生相互抄袭的现象也普遍存在。澳大利亚蒙纳什(Monash)大学对其学生中
互联网的快速发展深入影响着人们的日常生活。其中,微博作为近年来热门的实时信息分享平台,拥有众多的使用者;每天都会产生大量的微博数据。对微博数据进行有效的监控和管理
利用Internet上的空闲计算资源来解决大规模分布式计算是网格技术的一个重要研究方向。但是由于互联网的动态性,以及空闲资源所属权互相独立,造成了网格系统的异构性和动态性
学位
随着保护公共安全的视频监控系统与个人终端视频采集设备的普及,视频侵犯个人隐私的事件越来越多,互联网视频安全问题也愈加的严重。视频信息安全成为目前研究的热点和急需解决
学位
Web服务作为一种新兴的Web应用模式,是Web上数据和信息集成的有效机制。它被定义为使用标准的技术与其他服务进行交互的软件模块和自描述的应用,并且是一种自适应、面向互操作
随着网络技术的发展,企业系统管理环境发生了很大变化。系统管理的概念已经不局限于过去简单的网络设备管理,还包括对服务器、中间件甚至计算机上运行的应用软件的管理。被管
随着网络技术的不断发展,越来越多的企业使用工作流技术来提高企业的运行效率,目前工作流技术已经成为流程定义和管理的核心技术,具有广阔的发展空间。工作流管理系统是完成