基于内容的中文垃圾邮件过滤系统的研究与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:taiguomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,计算机网络与通讯技术的发展与广泛应用,电子邮件已经成为必不可少的通讯方式,但是随之而来的垃圾邮件却成为互联网上一个日益严重的安全问题。因此,解决好此类问题具有十分重要的现实意义。本文对中文垃圾邮件的特点进行了比较系统的分析和研究。首先研究的是有关特征选择的内容,根据影响特征选择方法的因素,研究几种常用的特征选择方法,分析各选择方法所构建的特征库的不足之处,从而提出一种新的特征选择方法。这种方法将影响因素组合起来表征特征项对于分类的强弱,并用logistic方程表示由组合因素表征出的特征权值,根据权值的大小选择对分类影响大的特征。实验表明这种方法构建的特征库可以明显提高过滤的精度。除此之外,本文提出一种新的正向过滤方法,正向过滤方法利用特征选择方法选择基于正常邮件的特征项,从而可以大幅度的提高对正常邮件的识别力,这也是传统过滤方法的瓶颈所在。但是,正向方法同样存在对垃圾邮件误判的问题,因此,本文提出结合传统过滤方法和正向过滤方法来合成过滤器,以弥补各自的不足,并归纳出结合两种方法的三种模式,最后根据这三种模式合成过滤器。正向方法对正常邮件的识别力和传统方法对垃圾邮件的识别力同时制约着合成过滤器的精度,各自的识别力越高那么合成过滤器整体效果越好,据此,本文对贝叶斯算法提出改进,缩小特征项的选取范围并改进spam_hash和ham_hash表的内容,使之更准确表示特征项所携带的信息量,以达到提升过滤精度的目的。实验结果表明,合成过滤器同时提高了系统对正常邮件和垃圾邮件的识别能力,召回率和正确率分别达到了97%和98%,用F值评价整体性能达到97%,根据此评价结果说明了本文对过滤器所作的改进应用在垃圾邮件过滤的实用性和可行性。
其他文献
随着信息化技术在企业生产和管理过程中的重要性不断提高,越来越多的企业开始将信息化技术应用到企业中的各种业务流程中去。通过信息化技术将企业内部松散凌乱的信息融合到
无线Mesh网络一般不是作为一个独立的网络形态存在,它更多的担负提供宽带无线接入的任务,为用户提供高速的Internet接入。因此在WMN中,网关节点的处理能力将制约整个WMN网络的性
随着Internet的飞速发展和数据仓库的大规模应用,科学、工程、商业等领域的多维信息日益增多。由于人类认知能力的固有局限性和信息的复杂性,多维数据可视化技术作为有效的抽
随着信息时代的到来,人们对网络通信质量的要求越来越高。网络编码的提出是网络通信研究领域中的一项重大突破,其中,面向组播通信的网络编码技术已成为网络通信研究领域的重
随着网络技术的发展和广泛应用,网络信息的安全问题已成为一个不容忽视的问题。网络安全扫描技术是信息安全风险评估的一个重要组成部分,是安全评估中信息收集的一个关键技术
交换结构是路由器和交换机中的关键部分,在如何保证服务质量QoS (Quality of Service)的前提下进行高速转发,是近年来网络研究的一个热点。相关的调度算法负责将输入端口的信
随着终端用户接入互联网的带宽的增大,VoD服务变得越来越流行。用户对于视频质量的要求也越来越高。日益增长的用户需求使得目前的P2P VoD解决方案都不能令人满意。P2P流媒体
粗糙集作为一种处理不确定性问题的方法,在理论和应用研究方面都取得了重要成果。粗糙集将论域划分为正域、负域和边界域,划分的过程完全基于数据集本身,不需要预处理过程或
医学图像处理的研究开始于七十年代后期,而真正的临床应用始于1973年,而此时正是核磁共振实现临床应用,为影像医学开辟了新的知识领域。医学图像处理,包括医学图像分割、医学
随着我国电网智能化程度越来越高,越来越多的具有通信功能的用电信息采集终端在电网中使用,对低压电力线载波通信的要求越来越高;同时用电负荷终端产生大量谐波,使得电参量的