论文部分内容阅读
随着电子邮件的广泛应用,垃圾邮件作为商业广告、恶意程序或敏感内容的载体,也越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的课题。邮件的根本问题就在于对垃圾邮件的自动过滤,自动过滤主要有基于规则和基于概率两种方式。基于规则的过滤技术是对邮件标题和信件内容等进行多项过滤。基于概率的过滤技术是利用对解码后邮件文档的元数据提取和本体标注,对其进行基于概率的朴素贝叶斯(Naive Bayes)本体概念识别分类,并做出了语义解释和查询推理,从而实现了智能的邮件过滤。基于概率的朴素贝叶斯算法简单、运算速度快、分类精确度高。数据挖掘(Data Mining)的主要任务就是对数据进行分析处理,从而获得其中隐含的、事先未知的而又有用的知识。它的最终目的就是发现隐藏在数据内部的规律和数据之间的特征,从而服务于管理和决策。贝叶斯作为在上个世纪末提出的一种崭新的数据处理工具,在进行不确定性推理和知识表示等方面已经表现出它的独到之处,特别是当它与统计方法结合使用时,显示出许多关于数据处理的优势。本文利用基于数据挖掘的贝叶斯邮件过滤方法进行邮件过滤系统的研究。文中重点介绍了Naive Bayes垃圾邮件分类算法,并根据此算法提出了一种新的垃圾邮件分类方法—贝叶斯参数估计邮件分类方法。通过采用基于NaiveBayes方法和基于贝叶斯参数估计方法两种方法进行算法对比,得出结论:基于贝叶斯参数估计方法是一种更有效的垃圾邮件过滤方法。