基于内容过滤的反垃圾邮件技术研究

来源 :北京邮电大学 | 被引量 : 13次 | 上传用户:skyskysky094411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅猛发展,在线的可用电子信息业迅速增加,电子邮件作为一种最快捷、最经济的通信方式也得到了飞速发展。但是同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器中的大量存储空间,用户往往要花费大量的时间去删除这些垃圾邮件。因此,研究邮件的自动过滤具有重要的意义。 目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另外还有一种就是从电子邮件的文本内容入手,使用文本分类算法,对邮件进行分类。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树等。基于概率的朴素贝叶斯算法具有方法简单、运算速度快、分类精确度高等优点,在文本分类中得到了广泛的应用。由于在邮件过滤过程中,合法邮件被误判为垃圾邮件将可能给用户带来据大的损失,因此在邮件过滤中就要采取适当的措施以减小损失。 具体来说,本文的工作主要包含以下内容: 1)简述了垃圾邮件问题的背景。包括垃圾邮件的定义、历史、泛滥原因以及危害。 2)概述了垃圾邮件过滤研究的现状。简要描述了一些基本概念和常用的垃圾邮件过滤算法。 3)介绍文本分类算法在邮件过滤上的应用,总结了常用的特征选择方法、分类算法以及通用的邮件语料库和垃圾邮件过滤的评价体系。 4)详细分析邮件过滤中的简单贝叶斯算法。介绍了贝叶斯分类方法的现状、贝叶斯算法的两种模型、基于最小风险的贝叶斯决策,以及垃圾邮件中的反馈学习和一些改进朴素贝叶斯分类器的建议,还在Ling-Spam语料上实验了朴素贝叶斯算法,比较了特征数量、垃圾邮件的阈值以及语料的预处理层次等因素对实验结果的影响。 5)综合各种过滤技术,设计了一个具有高度灵活性和可扩展性的客户端垃圾邮件过滤系统模型,总结了贝叶斯过滤算法的基本步骤,给出了一个贝叶斯过滤器的设计方案。
其他文献
随着SoC系统规模的持续扩大,系统验证复杂度也随之增加。传统的验证方法很难进行完备的验证,验证技术已成为制约SoC技术发展的瓶颈。为缩小与设计制造的差距,一系列高级的验
近几年来,无论是国有商业银行,还是股份制商业银行,对银行业务电子化处理都给予了前所未有的重视,电子化集中处理成为各银行建设的重要目标,实现对票据的电子化和自动化处理己成为
在大型复杂系统开发的初期,系统需求的抽取、描述和管理是一件困难而细致的工作,对后期开发的影响也是至关重要的。华中科技大学软件工程实验室研究课题SoftMaker作为生产软
VCE Search Engine是一个基于Globus网格平台的网络搜索引擎项目。本文以VCE Search Engine项目的网页采集功能为需求,设计并实现了一个有效且高性能的基于网格进行大规模网
随着计算机技术的发展与普及,许多企事业单位和管理机构都建立了自己的管理信息系统。在信息系统开发设计过程中,安全性能总是被放在首要的位置,成为信息系统生存的关键。构建企
网格技术是一门新兴的技术,有着非常广泛的应用前景和发展空间。在网格强大的功能给科学研究带来极大便利的同时,也不得不担心网格应用的安全性。 本文通过对网格安全的需求
本文针对信息时代“信息爆炸”的问题,即信息极大丰富而知识相对匮乏,进行了基于XML的Web内容挖掘应用研究。文章在介绍了数据挖掘、Web内容挖掘、XML技术等相关理论知识的基
近年来,随着互联网的发展和计算机系统的普及,地理信息系统得到了快速的发展,在导航定位、地图制图、国防、规划建设等等众多领域得到了广泛的应用。空间数据作为地理信息系
随着中国信息产业的飞速发展,互联网上中文信息的爆炸式增长,传统的文本分类技术已经难以满足中文分类任务的高维度、大数据量以及高可读性的要求,亟需开发适合中文的自动文
随着网络技术和通信技术的快速发展,实时语音、视频等多媒体应用得到迅速推广和普及,用于管理多媒体会话建立、修改和终止等过程的信令控制协议必不可少。会话初始化协议(SIP