【摘 要】
:
隐私政策(privacy policy)是组织或企业声明其收集、使用、共享用户个人信息的一类文本。随着近两年数据安全与个人信息保护不断的被重视,APP隐私合规成为了热议的焦点话题。当前国内监管机构开展的APP隐私政策人工评估工作耗时耗力,因此运用人工智能技术驱动分析隐私政策成为APP合规评估一项亟待研究的新课题。其中,隐私政策的命名实体识别(Named Entity Recognition,NER
论文部分内容阅读
隐私政策(privacy policy)是组织或企业声明其收集、使用、共享用户个人信息的一类文本。随着近两年数据安全与个人信息保护不断的被重视,APP隐私合规成为了热议的焦点话题。当前国内监管机构开展的APP隐私政策人工评估工作耗时耗力,因此运用人工智能技术驱动分析隐私政策成为APP合规评估一项亟待研究的新课题。其中,隐私政策的命名实体识别(Named Entity Recognition,NER)对进一步分析其句子结构,实体关系等具有重要意义。但迫于该研究工作缺少相关报告文献,因此本文以“中文隐私政策”为研究对象,从命名实体识别角度进行了探索性研究。首先本文从任务需求入手,开发了用于中文隐私政策命名实体识别的数据集。通过运用文献研究法,在总结隐私政策文本研究现状的基础上,归纳了国内不同行业隐私政策存在的问题,如可读性差、文本冗长等,进而提出采用人工标注与基于机器学习算法的方式构建所需数据集。主要贡献有:首先通过华为应用市场获取了生语料并设计了合适的中文隐私政策实体标注规范;接着结合监管机构中文隐私政策评估指标,经专家确认后确定待标注的实体类型,并由基于“YEDDA”工具二次开发形成的“中文隐私政策文本标注工具”进行实体标注;为了提高句子分类快速性、便捷性,本文提出了关键词预筛选法用于根据关键词与句子主题间关系对预处理的语料文本进行分类。实验验证采用集成学习的堆叠法比单个分类器分类性能更好,但成本相对较高。随后本文顺势在关键词与句子主题潜在关系上进行分析,提出构造中文隐私政策稀疏矩阵并利用奇异值分解方法,由余弦相似度计算相似距离进行潜在语义分析。实验验证利用奇异值分解方法反推句子潜在语义分析所识别的关键词与关键词预筛选选取的关键词基本对应,验证了关键词选取有效性。在研究中文隐私政策命名实体识别方法上,本文通过基于统计机器学习的条件随机场(conditional random field,CRF)模型和提出构建PRI-BI-LSTM-CRF神经网络方法用以解决中文隐私政策NER任务。条件随机场模型作为研究的基线方法需通过工具转为条件随机场模型训练测试格式。基于CRF研究中本文从领域特征角度设计实验比较文本不同输入粒度和窗口大小对识别结果的影响性。在基于神经网络方法上,PRI-BI-LSTM-CRF神经网络模型框架经实验验证六类实体F1值平均达到了79.55%。同时为解决因中文隐私政策数据标注集缺少影响识别准确性的问题,本文结合迁移学习提出通过预训练参数迁移PrivacySpecific词嵌入构建Trans-PRI-BI-LSTM-CRF神经网络提升中文隐私政策NER任务的准确性。综上,本文通过设计四组特征因素影响分析实验和基于字粒度标记下对比CRF、PRI-BI-LSTM-CRF、Trans-PRI-BI-LSTM-CRF三种识别方法,分析了中文隐私政策命名实体识别准确性影响因素和不同方法对解决中文隐私政策NER问题上的提升效果。根据实验数据表明,在解决中文隐私政策命名实体识别问题上,采用字粒度标记下的Trans-PRI-BI-LSTM-CRF方式六类实体F1值平均达到79.92%,可以更好的提升识别的准确性同时且具有一定的方法可行性。
其他文献
随着全球能源、环境问题的日益严重,发展可再生能源,提高可再生能源的利用率已成为各国发展的重点,尤其是光伏发电(Photovoltaic,PV),得到了快速发展。但分布式光伏发电的大
近年来随着网络的发展以及智能手机的普及,之前受限于网络传输速度和计算能力的移动端应用被推广起来,如何利用网络改善传统网上银行和人工服务不能满足客户便捷高效的需求的现状成了银行亟待解决的重要问题。针对上述问题,本文通过分析手机银行的应用背景、系统定位和业务流程,设计并实现了手机银行系统,该系统实现部分柜台业务电子化,为用户提供了随时随地办理各种银行业务的手机服务平台。论文完成了以下工作:(1)针对银
饱和攻击已成为现代战争中一种重要的攻击手段。由于雷达系统的发射资源有限,高效地管理雷达发射资源,对于提高雷达的多目标跟踪能力、提升雷达系统综合性能具有重要意义。认知雷达能够感知战场环境及目标状态,并据此主动地调整雷达工作模式、发射资源分配方案、发射波形和接收处理方法,有望显著提升雷达对目标和环境的适应能力,提高雷达资源利用效率,是未来雷达智能化的发展方向。本文面向多目标跟踪问题,研究了认知雷达发射
语文课程标准提出:学生要具有独立阅读的能力,学会运用多种阅读方法。预测作为一种重要的阅读策略,能够促进学生进行积极的深入的思考。在预测策略的教学中,要重视学生的预测
近些年来,随着智能终端和移动通信网络的普及,各类视频社交娱乐软件大幅兴起,伴随而来的是海量繁杂的视频数据。如何智能化处理这些信息数据,利用计算机对大规模视频数据进行智能化的分析和理解就显得尤为重要。在各类视频中,人类动作往往包含了视频数据的主要信息,对行为的识别以及基于行为识别的动作检测也是视频理解中最重要的研究课题,本文的研究重点是视频理解中的时序动作检测任务。本文主要基于深度学习技术,从上下文
在含能领域,粘合剂的发展在朝着高能、安全稳定、力学性能优良、低特征信号和绿色环保的方向前进。为了适应粘合剂的发展要求,制备了一种优良的粘合剂。首先,通过化学改性的方法,合成了一种端炔基聚环氧丙烷-四氢呋喃无规共聚物(PT(P-co-T)),并利用红外光谱法(FT-IR)和核磁共振氢谱(1H NMR)进行了表征,证实了合成的产物为PT(P-co-T)。其次,使用了GAPE(端酯基聚叠氮缩水甘油醚)和
近年来,伴随着人工智能的发展,越来越多基于深度学习的智能产品正在不断走进人们的日常生活,移动端智能软件无疑是人工智能工业化的一个重要发展方向。本文的实物分类系统是一款在移动端离线运行,可以对现实场景中的实物进行分类,并实时反馈出实物对应英文名称的应用软件。本文主要通过对系统的需求分析、系统的设计与实现、系统的测试及分析等工作的描述,介绍了实物分类系统的开发过程。在系统的需求分析过程中,首先根据需求
随着互联网不断发展,将互联网作为手段和工具的网络恐怖主义形式越来越受到恐怖组织重视,其中Twitter等社交网络尤为受到恐怖组织青睐。ISIS等恐怖组织通过Twitter构建线上支
我国经济水平的不断发展在给人民生活水平带来巨大提升的同时,也为旅游业带来了许多新的需求与挑战。随着个人收入的提高,我国每年的旅游人数也在不断的增长,人多、车多造成旅游城市景区人满为患停车困难,成了影响旅游业健康发展的问题。同时,传统包车调度模式无法平衡旅游城市淡旺季客运需求的巨大差异,给旅游运输企业的车辆运营成本造成了巨大的挑战。因此,需要新的调度方法来平衡运力与需求,这不但能够降低旅游运输企业成
煤是我国主要的能源消耗来源,近年来煤利用过程中产生的有毒污染气体和硫/氮氧化物等对大气环境造成的污染问题备受社会各界学者关注,开发一种高效经济的煤炭转化利用技术很有必要,煤化学链气化技术是一项能源利用的新型技术,具有提高能源利用效率、清洁环境的特点,煤中硒元素经气化过程释放到大气环境中带来的污染对清洁空气是一项很大的挑战。本研究通过流化床实验与热力学模拟结合的方法,系统地考察了煤化学链气化过程中硒