基于粗糙集的最小风险贝叶斯垃圾邮件过滤算法的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:guansea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅猛发展,在线的可用电子信息也迅速增加,电子邮件作为一种最快捷、最经济的通讯方式,也得到飞速发展。但是同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器的大量存储空间,用户往往要花费大量时间去删除这些垃圾邮件。因此,研究有效的过滤算法具有重要的意义。 邮件的自动过滤主要有基于规则和基于概率两种方式。基于概率的朴素贝叶斯算法具有方法简单、运算速度快、分类精确度高等优点,在邮件过滤中得到广泛应用。但是,在邮件过滤过程中,合法邮件被误判为垃圾邮件将可能给用户带来巨大的损失。 本文介绍了当前邮件过滤的国内外研究现状,分析了传统贝叶斯算法在邮件过滤过程中存在的局限性,传统的朴素贝叶斯算法在对邮件进行分类与过滤时,没有充分考虑到合法邮件与垃圾邮件具有这一不同的特性,因此用于邮件过滤时有一定的局限性。同时,朴素贝叶斯分类模型中的类条件独立假设也是它的先天不足所在,独立性假设在许多实际问题中不能够成立,如果在这些问题中忽视这一点,会引起分类的误差。 针对朴素贝叶斯的不足,本文提出了基于粗糙集的最小风险贝叶斯邮件过滤算法,该算法通过粗糙集属性约简在保持分类一致的前提下简化数据,从而削减冗余对象与属性、寻求属性的最小子集,满足属性间的相互独立条件;在传统的将邮件分类为正常邮件以及垃圾邮件的基础上,提出将邮件分为三类,即正常邮件,垃圾邮件以及可疑邮件,从而降低正常邮件的误判率。在实现粗糙集属性约简时,提出基于数据库的属性约简方法,提升了约简效率。实验结果表明,该算法能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。 本文的基于粗糙集的最小风险贝叶斯邮件过滤算法以及计算过程中采用的基于数据库的处理方法对垃圾邮件的过滤系统具有一定的参考作用。
其他文献
随着人们对各种应用需求的增加,网络也朝着多样化发展。在某些网络中,节点是不断移动的,节点之间的消息传递依赖于节点的相遇机会且得不到可靠的保证。网络中的移动节点具有间歇
随着Internet网规模的急剧扩大,网络用户越来越多,给电子商务的发展和普及提供了广阔的发展空间。网络上的信息量爆炸性地激增,但是网络中信息组织是非结构化或半结构化的。如何
随着显示技术的进步以及人们对阅读舒适度要求的不断提高,电子阅读装置的显示屏越来越大,色彩越来越丰富,与此同时,人们对于电子读物版面描述能力的要求也在不断提高,电子读物的版
本文主要介绍了基于USB系统的DSP仿真器的开发与实现,在实现过程中既有硬件的设计与实现,又有软件的研究与开发,从而实现整个系统的运行。 论文首先介绍USB的体系结构和特点,
随着互联网络的不断发展,网络应用已深入到日常生活的方方面面。互联网上的各类服务,在为用户提供方便的同时也积累了大量的数据,如何有效的利用这些数据已成为一个重要课题。基
嵌入式技术的飞速发展以及电子纸显示技术的逐步成熟为手持阅读应用提供了良好的土壤。V2手持阅读器是专门针对用户静态阅读需求的嵌入式设备。它的电子纸屏幕印刷系统和文档
IP电话是当今Intemet增值业务研究的一个技术热点,具有广阔的应用前景。网守是基于H.323技术构建的IP电话系统的重要组成部件。本文分析了H.323协议,对网守系统做了详尽的需求
在智能多摄像机协作监控系统中,目标匹配是一个重要且研究难度较大的问题。对于大型的多摄像机网络,难以对摄像机进行标定,因而缺少可用的时空关联信息,在目标匹配的时候往往只能
网络与多媒体技术的高速发展带来了对信息的巨大需求。如何将文献信息输入计算机进行加工、处理已成为信息化建设的重要问题。目前主流OCR (Optical Characters Recognition,
基于IEEE 802.11标准的无线局域网接入技术已经成为市场和应用的热点。但无线局域网在带来方便的同时,也带来了很多新的安全隐患。为此,业界提出了一些安全增强机制,包括:802.1x