PDF文档解析与内容脱敏技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:mohuan88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展以及大数据时代的来临,人们获取信息资源的手段也更加便捷,同时也带来了信息泄漏、敏感信息传播等问题。如何在保证数据资源开放及共享的条件下,防止涉密信息内容泄漏成为网络内容安全管控技术亟待解决的一大关键问题。PDF文档作为目前应用最为广泛的一种电子文档,涉及PDF文档内容防控的相关研究工作具有重要的应用价值。现有的PDF文档解析工具大多数是对本地的PDF文件进行解析,而较少能对网络在线PDF文档进行解析处理;其次,目前针对PDF文档内容涉密内容脱敏处理的工具更少。考虑到未来网络中PDF电子文档的广泛传播,应用中确实也存在对PDF文档内容中用户指定的敏感信息内容扩散的防控要求,论文重点研究在线PDF文档解析与内容脱敏技术。论文首先在概述当前网络信息安全所面临的挑战和技术解决方案的基础上,论证了对电子文档中敏感信息脱敏处理的必要性。然后在对当前PDF文件解析技术和存在问题分析的基础上,提出了一种基于Stream流的PDF文件解析方法,该方法不仅适用于本地PDF文件的处理,还适用于对网络中PDF文档的实时在线处理。在对PDF文件解析的基础上,为了更高效的对用户设定的敏感信息进行确认和处理,论文在对经典的字符匹配算法进行分析和比较的基础上,综合考虑BM算法和QS算法的优点,结合PDF文件文本编码特征,研究并给出了一种高效的字符匹配改进算法。有关实验验证结果表明,新算法能有效改进匹配效率。最后,在反向代理机制框架下,论文给出了一种基于网络在线的PDF文件识别、敏感内容识别定位与敏感内容脱敏处理的PDF文档解析与内容脱敏技术解决方案,并进行了功能测试和系统性能测试。实验结果表明,论文所完成的网络在线的PDF文件识别、敏感内容识别定位与敏感内容脱敏处理具有良好的PDF文档内容脱敏效果,可以满足实际应用要求。论文的相关分析工作为后续深入研究高效的网络电子文档内容防控技术具有一定的参考和借鉴价值。
其他文献
由中华医院管理学会中国医院杂志社和医院报社主办、山东省烟台毓璜顶医院承办、深圳尚荣医疗设备有限公司协办的全国“百佳医院”改革交流会于7月14日~16日在山东省烟台市召
脑钠肽(brain natriuretie peptide,BNP)是利钠肽家族中主要由心室分泌的一种神经激素。1988年BNP最初由猪脑中分离出来,和心钠肽具有明显的同源性,作用也相似。以后的研究陆续
第25届奥运会(1992年★巴塞罗那)巴塞罗那奥运会被公认为奥运历史上的成功典范,使巴塞罗那从一个普通的中等城市一跃成为欧洲第七大城市。巴塞罗那奥运会提出"城市向海洋开放
期刊
随着社会和经济的发展,人口老龄化进程的加快,人群疾病谱、死亡谱的改变,以及社会医学模式的转变,三级预防概念的提出,如何合理配置和利用卫生资源,控制医药费用的过快增长。只有积
深层水泥搅拌桩是进行软基处理的一种有效形式。本文介绍了深层水泥搅拌桩施工工艺流程、设计参数及要求、施工控制、质量检验等控制环节。
当大断面隧道下穿人防设施时,掘进施工针对当前掘进围岩情况如何适时地调整开挖方法、炮眼钻设、爆材选型、装药参数及起爆网络等相关技术,是实现隧道工程施工安全的主要技术难
今天,中华医院管理学会在这里召开全国医院权益维护和自律研讨会,这是建国以来第一次召开这样的会议。我们学会和医院报的一些同志根据许多院长的呼吁为召开这次会议已经酝酿多
当前,我国卫生改革进入了关键时期,各项改革不断深化和发展。李岚清副总理指出,城镇职工基本医疗保险制度、医疗机构、药品生产流通体制三项改革的总体目标是:用比较低廉的费用,提
集团化是我国期刊走向市场的必由之路——组建期刊集团的基本条件业已具备——不抓紧时间改革就有被吞并或挤出市场的危险