论文部分内容阅读
随着互联网相关应用的快速发展,广告技术的进步和电子邮件的普及,越来越多的垃圾邮件充斥着我们的生活。如何高效的区分垃圾邮件的研究也逐渐成为了热门课题。因自然语言在结构上有着很强的前后相关性,而且对于中文邮件直接转化成向量会有过高的维度产生,影响最后分类的准确性。基于内容和基于电子邮件源的识别技术现在是常用的两种垃圾邮件过滤方法。例如贝叶斯模型文本识别等就是基于内容的识别技术。白名单与黑名单机制、关键词匹配的是基于邮件来源的技术。电子邮件的数量增加可观、样式层出不穷,基于规则的方法不仅需要对邮件特征规则库进行不断的更新,同时还需要大量的人力。基于内容的方法当前已经取得令人可喜的成效,但随着科技的发展,现在垃圾邮件的制造者们开始大量的使用图像垃圾邮件,然后肆意的进行传播。这种方式的垃圾邮件更加难以检测且消耗的网络宽带也更大。论文主要分析总结当前常用的垃圾邮件的过滤方法,选择基于深度学习的分类算法作为本文研究的重点,建立垃圾邮件过滤模型。这之中具体工作以及贡献包括如下:1.本章设计了一种基于Skip-gram的CNNs-Highway邮件过滤模型(SGCH)。由于以前的词表示方法主要是独热编码(One-hot),但这样做的缺点是维度过高且数据稀疏,对于垃圾邮件过滤,单词之前和之后的语义信息不能很好地保留。目前,词嵌入(word embedding)可以有效地保留词汇语法和语义信息的词向量转换。本文提出的方法将基于词嵌入中Skip-gram模型将词分布式的映射到一个低维空间中,解决传统的One-hot编码词向量维度过高问题,然后结合不同卷积核的CNNs和Highway网络的级联网络,进行文本特征提取,最后在不同的中英文邮件数据集上进实验,证明其有效性。2.本章设计了一种基于深度卷积神经网络(DCNN)和双向GRU网络的垃圾邮件过滤模型(DCNN-BiGRU)。卷积神经网络可以很好的学习研究对象的局部特征,但同时存在其固有缺点,无法学习序列之间的关系。而循环神经网络则相反,在学习序列之间的关系方面有着不俗表现,但是对研究对象的局部信息却不是很敏感。为了弥补二者之间的缺陷,本文提出了改进的深度卷积神经网络和双向GRU网络,最后在CCERT中文邮件数据集上进行实验,证明其有效性。3.本章设计了一种基于决策级融合的垃圾邮件过滤方法。第1、2两个方法都对文本型垃圾邮件过滤技术的改进。然而,近年来,一些垃圾邮件的制造者利用图像承载着垃圾信息,从而进行大量的传播。单一的某一种模态邮件检测,其缺点是不能对邮件的所有信息进行全面的分析。本文基于前二个邮件文本的过滤方法并结合图像分类技术,提出了基于决策级融合的多模态架构模型,并在本文和图像混合的垃圾邮件数据库进行实验,证明其有效性。