论文部分内容阅读
随着互联网的飞速发展以及大数据时代的来临,人们获取信息资源的手段也更加便捷,同时也带来了信息泄漏、敏感信息传播等问题。如何在保证数据资源开放及共享的条件下,防止涉密信息内容泄漏成为网络内容安全管控技术亟待解决的一大关键问题。PDF文档作为目前应用最为广泛的一种电子文档,涉及PDF文档内容防控的相关研究工作具有重要的应用价值。现有的PDF文档解析工具大多数是对本地的PDF文件进行解析,而较少能对网络在线PDF文档进行解析处理;其次,目前针对PDF文档内容涉密内容脱敏处理的工具更少。考虑到未来网络中PDF电子文档的广泛传播,应用中确实也存在对PDF文档内容中用户指定的敏感信息内容扩散的防控要求,论文重点研究在线PDF文档解析与内容脱敏技术。论文首先在概述当前网络信息安全所面临的挑战和技术解决方案的基础上,论证了对电子文档中敏感信息脱敏处理的必要性。然后在对当前PDF文件解析技术和存在问题分析的基础上,提出了一种基于Stream流的PDF文件解析方法,该方法不仅适用于本地PDF文件的处理,还适用于对网络中PDF文档的实时在线处理。在对PDF文件解析的基础上,为了更高效的对用户设定的敏感信息进行确认和处理,论文在对经典的字符匹配算法进行分析和比较的基础上,综合考虑BM算法和QS算法的优点,结合PDF文件文本编码特征,研究并给出了一种高效的字符匹配改进算法。有关实验验证结果表明,新算法能有效改进匹配效率。最后,在反向代理机制框架下,论文给出了一种基于网络在线的PDF文件识别、敏感内容识别定位与敏感内容脱敏处理的PDF文档解析与内容脱敏技术解决方案,并进行了功能测试和系统性能测试。实验结果表明,论文所完成的网络在线的PDF文件识别、敏感内容识别定位与敏感内容脱敏处理具有良好的PDF文档内容脱敏效果,可以满足实际应用要求。论文的相关分析工作为后续深入研究高效的网络电子文档内容防控技术具有一定的参考和借鉴价值。