加权贝叶斯邮件过滤方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:cyf454545
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件给人们的沟通交流带来极大的便利,与此同时也带来了新的问题,即大量垃圾邮件的出现。垃圾邮件占用大量的网络资源,侵犯个人隐私,给人们造成了很大干扰,因此研究如何过滤垃圾邮件具有重要的现实意义和实际应用价值。本文在贝叶斯垃圾邮件分类算法的基础上进行研究工作。该算法基于统计学中的贝叶斯定理,根据先验概率求出后验概率,从而达到将垃圾邮件从大量电子文件中剔除的目的。贝叶斯垃圾邮件分类算法在按照文本分类进行邮件过滤的研究领域得到了广泛应用。本文首先介绍了垃圾邮件过滤的研究背景、国内外研究现状以及常用的邮件过滤方法和技术。为了建立垃圾邮件剔除效果测试的比较标准,介绍了贝叶斯概率定理、本文使用的语料库以及引用文献中经常使用文本分类性能评价指标。本文重点在分析常用的特征表示和特征选择基础上,做一些改进工作。建立特征表示的指纹向量方法以及特征选择的CHI-XIG混合方法,初步分析这种新方法在垃圾邮件分类中的优越性,后续设计了仿真实验进行验证。实验结果显示在本文建立的特征表示和特征选择方法基础上,朴素贝叶斯算法邮件分类效果有显著提高。本文研究发现邮件头和邮件体在邮件分类过程中具有不同的作用,据此建立了给予邮件头和邮件体不同权重系数的加权贝叶斯邮件过滤模型。在实际使用中,邮件头和邮件体的权重系数从历史数据统计产生,利用加权贝叶斯邮件过滤模型计算得到邮件综合分数作为判断邮件类型的定量依据。仿真实验验证了加权贝叶斯邮件过滤模型在垃圾邮件分类中的明显优势。
其他文献
经典诵读是小学语文教学必不可少的教学内容,它一方面可以提升小学生的阅读能力,另一方面可以使学生在诵读名著的过程中提高思想认识水平,有利于促进小学生形成良好的人生观
期刊
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
学位
期刊
组合数学是研究离散对象在给定约束条件下如何进行安排(或配置)的数学分支.它的渊源可以追溯到公元前2200年我国的大禹治水时代,但该学科进展一直很缓慢直到二十世纪40年代电
本文对与文本无关的说话人识别进行研究,研究内容主要有以下几个方面:在预处理阶段,采用语音信号的短时能量与短时过零率想结合的方法对其进行端点检测,提高了端点检测的准确
绍兴图书馆申报了全国教育科学规划领导小组办公室【2011】05号函通知,《以培养学生能力为导向的教学模式研究》“公共图书馆馆校互联阅读推广新模式研究”子课题研究,子课题编
期刊
本文主要利用广义的Concurrence给出了两个向量的线性组合可分的条件.将Wootters给出的两量子比特状态的纠缠度量Concurrence推广到高维的两体量子系统上就得到了广义的Concu