论文部分内容阅读
随着因特网的迅猛发展,在线的可用电子信息也迅速增加,电子邮件作为一种最快捷、最经济的通讯方式,也得到飞速发展。但是同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器的大量存储空间,用户往往要花费大量时间去删除这些垃圾邮件。因此,研究有效的过滤算法具有重要的意义。
邮件的自动过滤主要有基于规则和基于概率两种方式。基于概率的朴素贝叶斯算法具有方法简单、运算速度快、分类精确度高等优点,在邮件过滤中得到广泛应用。但是,在邮件过滤过程中,合法邮件被误判为垃圾邮件将可能给用户带来巨大的损失。
本文介绍了当前邮件过滤的国内外研究现状,分析了传统贝叶斯算法在邮件过滤过程中存在的局限性,传统的朴素贝叶斯算法在对邮件进行分类与过滤时,没有充分考虑到合法邮件与垃圾邮件具有这一不同的特性,因此用于邮件过滤时有一定的局限性。同时,朴素贝叶斯分类模型中的类条件独立假设也是它的先天不足所在,独立性假设在许多实际问题中不能够成立,如果在这些问题中忽视这一点,会引起分类的误差。
针对朴素贝叶斯的不足,本文提出了基于粗糙集的最小风险贝叶斯邮件过滤算法,该算法通过粗糙集属性约简在保持分类一致的前提下简化数据,从而削减冗余对象与属性、寻求属性的最小子集,满足属性间的相互独立条件;在传统的将邮件分类为正常邮件以及垃圾邮件的基础上,提出将邮件分为三类,即正常邮件,垃圾邮件以及可疑邮件,从而降低正常邮件的误判率。在实现粗糙集属性约简时,提出基于数据库的属性约简方法,提升了约简效率。实验结果表明,该算法能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。
本文的基于粗糙集的最小风险贝叶斯邮件过滤算法以及计算过程中采用的基于数据库的处理方法对垃圾邮件的过滤系统具有一定的参考作用。