论文部分内容阅读
自从互联网普及以来,电子邮件逐渐成为人们生活中便捷的通信手段之一。但随之产生的垃圾邮件泛滥成灾,除了用户不希望甚至厌恶收到此类邮件以外,垃圾邮件还占用了大量的网络传输带宽,浪费了很多存储空间和运算资源,甚至对网络系统的安全构成威胁。垃圾邮件过滤技术是识别垃圾邮件、阻止垃圾邮件传播的有效手段,是减少用户收到不请自来的垃圾邮件数量的有效方法,目前采用的主要方法包括基于专家知识的规则匹配和基于机器学习的文本处理两类。
一方面,垃圾邮件识别问题是涉及用户隐私和信息安全的问题,已有的垃圾邮件过滤方法对此很少考虑。另一方面,邮件文档是有别于正常的文本文档或网页文档的特殊格式文档,除了纯文本信息,还可以包含HTML信息、内嵌资源和附件等内容。已有的基于内容的垃圾邮件过滤技术通常是利用机器学习领域的文本分类技术,忽略了邮件文档中其他MIME组件的信息,因此过滤效果难以达到最优。第三,垃圾邮件最大的特征是它会将相同的或相似的内容发送给数以万计的接收者,因此会在互联网上同时传送大量副本。传统的垃圾邮件过滤技术通常在单用户或单邮件服务提供商环境下对过滤模型进行训练和学习,因此过滤效果也难以达到最优。第四,垃圾邮件的散播一般都带有商业或政治推广意图,具有特定的生命周期和受众群体,从而导致基于静态环境训练和学习的垃圾邮件过滤技术在模型建立之初都有不错的效果,但随着时间的推移与用户偏好的变化,过滤性能会不断的下降。
针对上述问题,理想的垃圾邮件过滤技术应该在保证用户隐私和信息安全的前提下,有效的利用邮件的MIME构成特性,充分利用分散在互联网上的邮件用户的反馈与协作,并针对垃圾邮件的时效性和受众性进行自适应的调节。基于上述考虑,本文提出了基于数字指纹的垃圾邮件过滤模型,除了能够保证邮件处理问题的隐私和安全以外,还能有效的构建全局共享的邮件MIME特征知识库,为多用户协作提供基础,为应时、应势的自适应调节提供条件。
首先,本文采用启发式搜索和匹配算法实现多种伪装特征到同一数字指纹的映射,建立共享的数字指纹知识库实现相同或者相似垃圾邮件副本的检测。提出识别垃圾邮件的单数字指纹改进策略和多数字指纹策略,并分析邮件特征抽取的粒度对垃圾邮件识别效果的影响,阐述基于数字指纹策略的邮件类别判定算法。
进一步,本文提出基于MIME组件拆分的两阶段垃圾邮件过滤模型,将完全相同或基本相同的垃圾邮件副本在第一阶段进行识别和过滤,将经过恶意伪装的相似垃圾邮件副本在第二阶段进行识别和过滤。为了对共享的数字指纹知识库中的数字指纹有效的设定指示器分值,提出多用户协作的过滤增强模型,定义不同角色的反馈者,并对反馈者的信用度进行评估,依此计算数字指纹的指示器权重分值。
最后,在共享数字指纹知识库的基础上,为保持模型的长期有效性,本文提出概念漂移的双级别检测算法,采用数字指纹的渐进遗忘机制实现针对时间推移的自适应调节:为满足不同用户偏好的差异性,本文定义与用户相关的概念差异度,对模型中的启发式算法进行优化,提出基于概念子类别的邮件聚类算法,实现针对不同受众群体的自适应调节。
在几个著名的公开数据集和手工数据集上的实验表明,在符合现实垃圾邮件样本分布的条件下,本文所提的基于数字指纹的垃圾邮件过滤模型能够很好的解决传统垃圾邮件过滤技术面临的若干问题,有效的提高垃圾邮件过滤的效果。