论文部分内容阅读
随着信息技术的普及,以及计算机和手机等智能设备的高速发展,电子邮件在生活和工作得到了越来越广泛的应用,它可以摆脱传统纸张书写的束缚,具有更加高效的传输效率,便于留存且不会轻易丢失。电子邮件带来便利的同时也产生了一些弊端,如目前整体的邮件安全形势就不容乐观,邮件数据泄露现象屡见不鲜,这些数据中包含大量隐私信息,对社会、企业,尤其是个人隐私安全会造成非常严重的影响,所以需要从复杂繁多的电子邮件中将含有隐私信息的邮件识别出来。目前关于隐私信息识别检测研究较少,常用的方法不能非常准确的识别出隐私信息。为此本文基于词向量和迁移学习,提出隐私邮件分类方法,具体研究工作及贡献包括:(1)针对隐私邮件文本特点,为防止生成的词向量稀疏和考虑上下文对单词的影响,选择分布式表示词向量的方式来得到词向量,针对词向量没有考虑文本的权重信息,加入TF-IDF权重,有效增强了邮件文本词向量的特征表示,使词向量更易于邮件分类;(2)从隐私邮件泄露对用户危害程度的角度出发,对隐私邮件进行分级。为解决没有大型隐私邮件数据集的问题,使用迁移学习进行隐私邮件分类,通过对卷积神经网络算法和门控制单元算法进行邮件分类的实验对比,选取卷积神经网络训练模型作为迁移学习的预训练模型,利用人工标注的隐私邮件数据对预训练模型不同层进行迁移学习对比实验,实验结果表明词嵌入层是迁移学习最优层,从而通过微调词嵌入层建立了隐私邮件分类的迁移学习模型;(3)提出并实现了多算法融合的隐私邮件分类方法。针对隐私邮件文本的特点,使用正则和文本相似度算法直接完成对邮件所属类类别的判断,最后对无法明确区分的邮件用隐私邮件分类的迁移学习模型进行等级分类。采用本文模型,未改进词向量的模型和卷积神经网络模型三种方法对隐私邮件进行多组对比实验,实验结果表明本文模型在正确率、精确率、召回率、F1值都优于其他两种模型。