基于数字指纹的垃圾邮件过滤技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:ken112233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从互联网普及以来,电子邮件逐渐成为人们生活中便捷的通信手段之一。但随之产生的垃圾邮件泛滥成灾,除了用户不希望甚至厌恶收到此类邮件以外,垃圾邮件还占用了大量的网络传输带宽,浪费了很多存储空间和运算资源,甚至对网络系统的安全构成威胁。垃圾邮件过滤技术是识别垃圾邮件、阻止垃圾邮件传播的有效手段,是减少用户收到不请自来的垃圾邮件数量的有效方法,目前采用的主要方法包括基于专家知识的规则匹配和基于机器学习的文本处理两类。   一方面,垃圾邮件识别问题是涉及用户隐私和信息安全的问题,已有的垃圾邮件过滤方法对此很少考虑。另一方面,邮件文档是有别于正常的文本文档或网页文档的特殊格式文档,除了纯文本信息,还可以包含HTML信息、内嵌资源和附件等内容。已有的基于内容的垃圾邮件过滤技术通常是利用机器学习领域的文本分类技术,忽略了邮件文档中其他MIME组件的信息,因此过滤效果难以达到最优。第三,垃圾邮件最大的特征是它会将相同的或相似的内容发送给数以万计的接收者,因此会在互联网上同时传送大量副本。传统的垃圾邮件过滤技术通常在单用户或单邮件服务提供商环境下对过滤模型进行训练和学习,因此过滤效果也难以达到最优。第四,垃圾邮件的散播一般都带有商业或政治推广意图,具有特定的生命周期和受众群体,从而导致基于静态环境训练和学习的垃圾邮件过滤技术在模型建立之初都有不错的效果,但随着时间的推移与用户偏好的变化,过滤性能会不断的下降。   针对上述问题,理想的垃圾邮件过滤技术应该在保证用户隐私和信息安全的前提下,有效的利用邮件的MIME构成特性,充分利用分散在互联网上的邮件用户的反馈与协作,并针对垃圾邮件的时效性和受众性进行自适应的调节。基于上述考虑,本文提出了基于数字指纹的垃圾邮件过滤模型,除了能够保证邮件处理问题的隐私和安全以外,还能有效的构建全局共享的邮件MIME特征知识库,为多用户协作提供基础,为应时、应势的自适应调节提供条件。   首先,本文采用启发式搜索和匹配算法实现多种伪装特征到同一数字指纹的映射,建立共享的数字指纹知识库实现相同或者相似垃圾邮件副本的检测。提出识别垃圾邮件的单数字指纹改进策略和多数字指纹策略,并分析邮件特征抽取的粒度对垃圾邮件识别效果的影响,阐述基于数字指纹策略的邮件类别判定算法。   进一步,本文提出基于MIME组件拆分的两阶段垃圾邮件过滤模型,将完全相同或基本相同的垃圾邮件副本在第一阶段进行识别和过滤,将经过恶意伪装的相似垃圾邮件副本在第二阶段进行识别和过滤。为了对共享的数字指纹知识库中的数字指纹有效的设定指示器分值,提出多用户协作的过滤增强模型,定义不同角色的反馈者,并对反馈者的信用度进行评估,依此计算数字指纹的指示器权重分值。   最后,在共享数字指纹知识库的基础上,为保持模型的长期有效性,本文提出概念漂移的双级别检测算法,采用数字指纹的渐进遗忘机制实现针对时间推移的自适应调节:为满足不同用户偏好的差异性,本文定义与用户相关的概念差异度,对模型中的启发式算法进行优化,提出基于概念子类别的邮件聚类算法,实现针对不同受众群体的自适应调节。   在几个著名的公开数据集和手工数据集上的实验表明,在符合现实垃圾邮件样本分布的条件下,本文所提的基于数字指纹的垃圾邮件过滤模型能够很好的解决传统垃圾邮件过滤技术面临的若干问题,有效的提高垃圾邮件过滤的效果。
其他文献
消息中间件是一种基于分布式系统的消息传递中间件,它作为一个消息系统,为分布式系统节点间的可靠、稳定通信提供平台,它可以基于不同协议、硬件平台、语言、操作系统进行有
随着能源问题的日益严峻,水力发电作为一种清洁可再生的能源越发地受到重视。压力钢管作为水电站的重要组成部分,在电站正常运行维护期,特别是投产的初期和经过多年的运行后,
无线传感器网络(Wireless Sensor Network,WSN)是一门集中了嵌入式技术、微电子技术、传感器技术、分布式信息处理技术和通信网络等技术的交叉学科,在环境监测、医疗卫生、国
随着计算机与网络技术的发展,Web已经成为人类知识的存储库,用户可以方便快捷地接触到丰富的信息。因而在如此浩瀚的信息中找到对自己真正有用的信息成为人们关注的焦点。在
学位
数据挖掘是当前知识发现领域中的一个研究热点,其中的关联分析是一种重要方法。像大多数行业一样,供热企业也存储了大量的数据。面对这些纷繁复杂的供热数据,传统的分析手段
排序学习问题是搜索引擎的核心问题,对它的研究引起了学术界和工业界的广泛关注。传统的排序学习算法主要是从充足的已标号训练样本中学习排序函数,然后将其用来预测同种类型对
在信息化时代,人们对于信息共享的要求越来越高,单个域内的资源共享已无法满足用户对资源的需求,跨域资源访问应运而生。单点登录(Single Sign-on, SSO)使得用户只需在跨域资
分布式拒绝服务(Distributed Denial of Service,DDoS)攻击是当前互联网面临的最严重的安全问题之一。应用层DDoS攻击用于完成特定目标,主要包括中断交易和访问数据库资源。
随着互联网的发展,网络服务器面对众多用户请求的压力也变得越来越大。面对这样的情况,只靠提高单个服务器的硬件性能已远远不能满足需求,而且这些方法的代价十分昂贵,也只能