贝叶斯数据挖掘算法在反垃圾邮件中的研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:hzqifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子邮件的广泛应用,垃圾邮件作为商业广告、恶意程序或敏感内容的载体,也越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的课题。邮件的根本问题就在于对垃圾邮件的自动过滤,自动过滤主要有基于规则和基于概率两种方式。基于规则的过滤技术是对邮件标题和信件内容等进行多项过滤。基于概率的过滤技术是利用对解码后邮件文档的元数据提取和本体标注,对其进行基于概率的朴素贝叶斯(Naive Bayes)本体概念识别分类,并做出了语义解释和查询推理,从而实现了智能的邮件过滤。基于概率的朴素贝叶斯算法简单、运算速度快、分类精确度高。数据挖掘(Data Mining)的主要任务就是对数据进行分析处理,从而获得其中隐含的、事先未知的而又有用的知识。它的最终目的就是发现隐藏在数据内部的规律和数据之间的特征,从而服务于管理和决策。贝叶斯作为在上个世纪末提出的一种崭新的数据处理工具,在进行不确定性推理和知识表示等方面已经表现出它的独到之处,特别是当它与统计方法结合使用时,显示出许多关于数据处理的优势。本文利用基于数据挖掘的贝叶斯邮件过滤方法进行邮件过滤系统的研究。文中重点介绍了Naive Bayes垃圾邮件分类算法,并根据此算法提出了一种新的垃圾邮件分类方法—贝叶斯参数估计邮件分类方法。通过采用基于NaiveBayes方法和基于贝叶斯参数估计方法两种方法进行算法对比,得出结论:基于贝叶斯参数估计方法是一种更有效的垃圾邮件过滤方法。
其他文献
二十世纪九十年代以来,期权成为最有活力的衍生金融产品,得到了迅速的发展和广泛的应用。因此,期权定价问题是当前金融数学的重要研究课题之一。自从Black-Scholes推导出期权
金融市场波动性是现代金融理论及实证研究所关注的一个重要内容,其对于投资决策、资产定价、资产选择等来说,具有相当重要的意义。金融市场波动性包括金融市场上金融资产价格
设计、管理是人类古今就有的社会行为。随着人们对产品多样性、高品质、高附加值的追求,设计与管理的结合成为一种必然。设计管理作为设计学与管理学交叉的边缘学科,作为一个
从竞技体育中的竞争情报应用、体育企业中竞争情报应用与体育院校图书馆竞争情报服务三方面对体育竞争情报研究现状进行了调查分析,探讨了其学科理论,提出了基于引文分析的高
教育的发展离不开教师,教育质量的提高离不开教师专业水平的提升。本文以中小学体育教师为研究对象,旨在探讨中小学体育教师专业发展的评价问题,寻求增进专业发展有效性的方