基于隐私度的邮件分类方法研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:kinggaoblog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的普及,以及计算机和手机等智能设备的高速发展,电子邮件在生活和工作得到了越来越广泛的应用,它可以摆脱传统纸张书写的束缚,具有更加高效的传输效率,便于留存且不会轻易丢失。电子邮件带来便利的同时也产生了一些弊端,如目前整体的邮件安全形势就不容乐观,邮件数据泄露现象屡见不鲜,这些数据中包含大量隐私信息,对社会、企业,尤其是个人隐私安全会造成非常严重的影响,所以需要从复杂繁多的电子邮件中将含有隐私信息的邮件识别出来。目前关于隐私信息识别检测研究较少,常用的方法不能非常准确的识别出隐私信息。为此本文基于词向量和迁移学习,提出隐私邮件分类方法,具体研究工作及贡献包括:(1)针对隐私邮件文本特点,为防止生成的词向量稀疏和考虑上下文对单词的影响,选择分布式表示词向量的方式来得到词向量,针对词向量没有考虑文本的权重信息,加入TF-IDF权重,有效增强了邮件文本词向量的特征表示,使词向量更易于邮件分类;(2)从隐私邮件泄露对用户危害程度的角度出发,对隐私邮件进行分级。为解决没有大型隐私邮件数据集的问题,使用迁移学习进行隐私邮件分类,通过对卷积神经网络算法和门控制单元算法进行邮件分类的实验对比,选取卷积神经网络训练模型作为迁移学习的预训练模型,利用人工标注的隐私邮件数据对预训练模型不同层进行迁移学习对比实验,实验结果表明词嵌入层是迁移学习最优层,从而通过微调词嵌入层建立了隐私邮件分类的迁移学习模型;(3)提出并实现了多算法融合的隐私邮件分类方法。针对隐私邮件文本的特点,使用正则和文本相似度算法直接完成对邮件所属类类别的判断,最后对无法明确区分的邮件用隐私邮件分类的迁移学习模型进行等级分类。采用本文模型,未改进词向量的模型和卷积神经网络模型三种方法对隐私邮件进行多组对比实验,实验结果表明本文模型在正确率、精确率、召回率、F1值都优于其他两种模型。
其他文献
农业绿色发展已成为国家战略。中共中央办公厅、国务院办公厅《关于创新体制机制推进农业绿色发展的意见》指出:“推进农业绿色发展,是贯彻新发展理念、推进农业供给侧结构性
青岛位近韩日,是我国在长江以北、津沪之间进行离岸业务试点的首选地。青岛应依托京津,做环渤海区域南翼的重心,借助天津滨海新区试点创建离岸金融的市场环境,进而发展亚洲日
近年来,随着我国经济的快速增长和城市化进程的不断深入,我国出现了房价过快上涨的势头。高房价背后有着各种成因,抵押贷款证券化在解决高房价问题上具有合理性和可行性,保持
农村的安定和稳定是建设新农村的重要前提。福建省闽侯县在城市化进程中遇到的问题具有代表性,以其为例分析影响农村社会治安稳定的主要问题及成因,并就此提出加强农村基层公
<正>一公民意识作为一种现代社会意识,是指社会成员对其公民身份、公民权利、公民义务等的理性认知。它是一个人由自然人转变为公民的显著标志,是衡量一个社会现代化程度的重
“器乐演奏声腔化”理论是闵惠芬老师对中国二胡艺术发展最为重要的贡献,《洪湖主题随想曲》是闵惠芬器乐演奏声腔化类别的曲目中传承度最高的作品之一,也是最经典的作品之一
DVP是各国证券市场控制结算风险的首要措施和遵循的基本原则。我国银行间债券市场交易结算已全面实现了DVP结算,非银行机构DVP结算业务也有了一定的发展。然而,就非银行金融
D公司成立于20世纪70年代,是美国的一家国际快递运输企业。历经40余载的发展,公司建立了强大成熟的全球空运运输网络。千禧年后,D公司在信息技术方面加大了投入,力求为客户提
目的:比较保守治疗和手术治疗兔模型中小型肩袖损伤的组织学及生物力学效果,为临床肩袖中小型损伤的治疗手段提供实验依据。方法:将30只新西兰大白兔进行右侧肩关节行冈上肌腱离断术,建立肩袖中小型撕裂模型,左侧肩关节行假手术处理。术后随机分为2组:手术治疗组,术后1周后行肩袖修补手术;保守治疗组,作为对照。两组分别于治疗后2,4和8周进行HE染色观察腱-骨愈合情况及生物力学测试测试检查肌腱强度。结果:所有
采用试验方法,进行了某深水多功能水下工程船月池对船舶静水阻力的影响特性的研究.通过模型试验研究了工作月池在关闭与开启状态下对船舶阻力的影响,此外,还进行了工作月池不