垃圾邮件过滤技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:cocksun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃圾邮件问题日益严重。面对肆虐的垃圾邮件,人们采用了各种手段来对抗,垃圾邮件过滤技术是目前最主要的反垃圾邮件手段。本文研究垃圾邮件过滤技术中的一些关键问题。由于垃圾邮件往往有其用词、行文等内容上的明显特征,而且垃圾邮件所包含的话题一般不存在于正常邮件中,这使得应用文本分类的方法进行基于内容分析的垃圾邮件过滤变得非常有效,目前这已成为垃圾邮件过滤中一个新的研究热点。本文将其称为基于内容的垃圾邮件过滤技术。本文概述了现有的基于内容的垃圾邮件过滤技术,指出了其中的三个关键问题:分类算法,特征选择方法和中文词串切分算法。我们分别对这三个问题进行了对比实验并给出了实验的结果。实验结果显示,支持向量机分类模型以及基于信息增益的特征选择方法能取得比较好的结果。我们实现了单字切分、二元切分和基于字典的正向最大匹配三种中文词串切分算法,实验结果显示简单的二元切分能取得和正向最大匹配算法相当的效果,而单字切分出人意料地比这两者都要更好。另外,由于垃圾邮件过滤的特性,停用词和标点符号对正确过滤有帮助,不应去除。基于内容的垃圾邮件过滤器容易受到反过滤手段的欺骗。基于垃圾邮件发送者绝大多数情况下会在邮件中添加一个供读者点击访问的链接的事实,我们提出了一种新颖的基于邮件内含链接特征分析的垃圾邮件过滤技术。该技术提取邮件中与链接有关的特征,用支持向量机进行训练分类。实验结果显示这是一种快速有效的过滤技术。垃圾邮件过滤的一个重要趋势是综合各种单独的技术进行判断。本文最后在前文工作的基础上,研究并实现基于改进的AdaBoost算法的多过滤技术组合策略。这是综合各种技术实现实用的垃圾邮件过滤系统的关键问题。我们运用该策略取得了很好的实验结果,在相同的数据集上,超过了SEWM2008垃圾邮件评测竞赛第一阶段任务的最好成绩。
其他文献
随着信息技术的发展与完善,越来越多的移动智能设备走入了人们的视野,相关服务平台逐步搭建。人们穿戴的智能设备有着丰富的互联网应用资源。他们不但在人们的生活上提供了诸
在三维地理信息系统(GIS)中,三维数据模型与数据结构是研究的核心。从数据描述格式的角度划分,三维空间数据模型可以归纳为栅格数据(Raster)、矢量数据(Vector)两种。由于栅
人脸识别是模式识别技术在视频图像中的具体应用,通常包括人脸的检测和定位、特征提取、分类识别三个主要方面的内容。由于具有安全性、可靠性和有效性,人脸识别近来成为视频图
XML(eXtensible Markup Language)在Web服务、电子商务、数字图书馆等诸多网络相关应用领域已经成为描述数据的事实上的标准。为了方便用户从海量的XML数据中提取他们所需要
随着算法研究的深入和指纹采集设备性能的提高,近年来,自动指纹识别系统已经成为生物特征识别研究的一个热点,广泛应用于生活各个领域。自动指纹识别系统包括指纹采集、指纹
计算机网络有效地实现了资源共享,也随之带来了一系列信息安全问题。在网络上如何保证合法用户对资源的合法访问以及如何防止网络黑客攻击,成为网络安全的主要内容。目前,在企业
无线传感器网络由大量的传感器节点自组织、多跳传输的方式构成的无线网络,能够实时监测、收集、传输各种数据,部署方便快捷,具有广泛的应用前景,是目前国际上的研究热点之一
无线传感器网络(Wireless Sensor Network,WSN)是一组传感器以自组织方式构成的无线网络,其目的是协作地感知、采集和处理网络覆盖区域中感知对象的信息,并发布给观察者。由
兴趣是人们力求认识某种事物或爱好某种活动的倾向,这种倾向是和一定的情感联系着的。兴趣,能使人的智力得到更好的发挥,放射出夺目的智慧之光。因此,培养和激发学生学习兴趣
随着普适计算的发展,尤其是部署在日常生活用品中的微型传感器以及可穿戴传感器的普及,越来越多的科研机构开始利用行为识别、活动识别系统进行广泛的科学研究。此外,随着智