一种基于自动分类的中文垃圾邮件过滤引擎的研究与实现

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:roseisdead
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的广泛应用和发展,电子邮件已经是人们日常生活不可或缺的一种工具和网络交流的重要途径,然而垃圾邮件已经成为一种公害,因此研究反垃圾邮件问题已经成为全球性的具有重大现实意义的课题。反垃圾邮件的技术有很多,邮件过滤技术是反垃圾邮件技术中较为有效的手段,而基于文本自动分类的过滤技术又是邮件过滤技术中比较灵活和高效的方法。本文介绍了电子邮件技术、垃圾邮件的定义及其危害,常用的反垃圾邮件技术及其特点,结合中文邮件的特点,研究了中文垃圾邮件过滤引擎所需的各种技术,设计并实现了一种基于自动分类的中文垃圾邮件过滤引擎,讨论了该引擎的总体结构,邮件预处理模块设计、训练模块设计、分类模块设计等相关技术问题,并就各模块的实现方法进行了研究。在中文分词方面,设计并实现了一种基于索引的中文分词方法,提高了传统的机械分词法效率;在特征提取方面,采用互信息值的方法,分析了传统互信息方法的缺陷并给出了改进措施;在邮件的表示方面,对传统的向量空间模型进行了改进,提出并采用了一种更加适合于贝叶斯计算的表示方法;用大量的测试样本对引擎进行了测试,并就结果进行了讨论分析。为了提高过滤引擎反馈学习的力度,本文提出了一种集中学习的思想,引入了特征服务器,并介绍了特征服务器的实现方法和桌面引擎的扩展。
其他文献
随着社会经济的高速发展,我国的科学技术水平也取得了突飞猛进式的发展,其中在医学领域内,借助于诸多先进技术研发而成的医疗设备、技术,用于患者疾病诊断与治疗中,发挥着非
非结构化补充业务数据(Unstructured Supplementary Service Data,USSD)是一种基于GSM(Global System for Mobile Communications)的新型交互式移动数据业务。USSD定义为移动
迅速发展的网络技术正改变着人们的工作、学习、生活模式。在教育的发展中,网络也为其注入了新的活力,网上教育,已成为了现代教育发展的一种趋势。而考试是教育的一个重要组
并行计算模型是为研究并行算法的性能,开发具有可移植性并行程序而建立的一种理论计算模型。本文研究面向网格的可扩展并行计算模型与算法设计,构建面向网格环境的可扩展并行算
目的 探讨对老年糖尿病患者加强社区健康教育,其血糖控制情况是否好转.方法 选择2018年在我社区医院签订家庭医生服务的老年糖尿病患者共64例,对比初始值及开展社区教育3个月
随着网络上文本信息爆炸式的增长,文本分类已成为非常重要的研究方向。为了面对时代的挑战,本文针对文本分类问题进行了深入的研究,取得了一系列突破性进展。 本文在研究
目的 分析和探讨乙肝病毒感染对肝脏的影响及护理指导.方法 选择我院(2017年6月至2019年6月)乙肝病毒感染患者(23例)作为研究对象,作为观察组,同期选取23例健康人群作为对照
目的 探究低分子肝素钙用于肾病综合征抗凝治疗中的疗效和安全性.方法 选取2018年7月至2019年7月我院收治的68例肾病综合征患者作为研究对象,随机分为对照组和观察组,均为34