基于贝叶斯理论的数据挖掘方法在电子邮件分类中的应用研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wuqianlan987654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了基于贝叶斯理论的数据挖掘方法在电子邮件分类中的应用。 伴随着人类社会进入信息时代,电子邮件作为便捷快速的信息传递方式,已经成为现代社会商务、生活不可或缺的一部分。然而电子邮件正被利用发送一些它的接收者并不需要、并不想接收的信息,所谓垃圾邮件,粗略地讲,是指那些不管接收者是否要求发送、是否愿意接收而大量发送给数以千计的接收者的电子邮件。垃圾邮件的数量在近年来成指数级别增长,人们不得不着手解决垃圾邮件带来的问题。 应对大量垃圾邮件带来的挑战,很多反垃圾邮件技术和方法出现了。反垃圾邮件技术,或者说电子邮件过滤技术,本质上是电子邮件分类技术。电子邮件分类系统从最初只能进行简单的基于静态规则的分类,逐步发展到利用数据挖掘方法,针对垃圾邮件发送的内容和发送垃圾邮件的行为进行自动学习、识别和判断,动态地生成和调整分类电子邮件的规则,智能地进行分类。在电子邮件分类领域应用数据挖掘方法是目前学术界和工业界研究的热点。 在电子邮件分类领域,从实际的应用条件,如存储空间,响应速度和计算复杂度等角度来看,以贝叶斯理论为基础的基于邮件内容的过滤分类技术是目前的主流和最重要的技术。本文的研究从数据库知识发现的角度出发,在电子邮件分类领域,从选择目标数据、预处理数据、转化数据入手,进行数据挖掘以提取模式和关系,解释并评价所发现的关系在预测中的效果;分析、研究、比较、评估基于贝叶斯理论的不同的模式和关系,在实践中观察、调整、改进有监督机器学习的步骤、参数。 本文深入地研究了基于贝叶斯理论的数据挖掘方法在电子邮件分类中的具体效果和相关细节。首先,探讨了电子邮件的分类模型和分类基本假设;然后,讨论了电子邮件的特征提取,包括文档频次和信息增益两种方法,同时根据经验方法进行了特征约简;最后,比较研究了三种基于贝叶斯理论的分类算法,关注特征提取方法的不同,特征重要性的判别标准不同,采用的特征的不同类别对分类算法的影响。同时也检验了有监督学习训练的效果。 通过本文的研究工作,以电子邮件分类应用为样本的一整套基于贝叶斯理论的数据挖掘分类方法的应用系统初具雏形,整个机器学习、数据挖掘领域需要考虑的特征提取、学习训练、分类器设计、性能评估、反馈改进等各个环节都给出具体的方法和需要考虑的关键细节,并通过实验的方式进行了经验验证。虽然本文的研究只是针对电子邮件分类这个特殊的领域,但是文中所采用的数据挖掘方法具有应用上的普遍适用性,可以广泛地应用到各种各样的分类的领域,比如信用风险评估、欺诈行为侦测,甚至应用到股价预测评估当中。针对各种各样的分类应用领域,本文提供了一个普遍适用的、经过经验验证的、数据挖掘领域基于贝叶斯方法的应用框架。
其他文献
随着我国社会主义市场经济的确立和成为WTO的成员国,我国融入世界全球化的进程进一步加快。社会对各层次的实用型人才的素质、技能的要求越来越高。作为以培养实用型人才的职
本文从危险货物的基本特性入手,首先分析了危险货物运输流动性强、危险性大、过程复杂、事故多发、要求防护、救援困难等特点,明确了危险货物对运输管理的要求;其次,系统地分析和
目的评价乳腺癌患者在新辅助化疗(NCT)后行前哨淋巴结活检术(SLNB)可行性。方法以"乳腺癌"、"新辅助化疗"及"前哨淋巴结活检"为自由词和主题词于中国生物医学文摘数据库(CBM)
近年来,类风湿关节炎(RA)的免疫治疗取得了令人瞩目的进展.当前主要的免疫治疗包括:针对炎症免疫介质,特别是细胞因子相关的治疗;针对细胞,尤其是T淋巴细胞的治疗;诱导抗原特
随着移动应用(APP)涉及领域的扩大和形式内容的不断丰富,用户安装、卸载移动应用的频率持续提高。高频率的下载行为和低频率的使用行为给用户带来账号密码的设置、记忆耗时以及
本文主要研究了政府高等教育投资中政府投资博弈、高等教育投资分配中的博弈、高等教育投资经费的监管及评价等问题。针对高等教育投资效用模糊性的特点,研究了中央和地方两级
随着社会的发展,服务业在社会经济中发挥着越来越重要的作用,近些年来,我国服务业发展迅猛,但是也不难发现,服务的同质性越来越严重,在此背景下,企业必须不断进行服务创新,才能持续保