论文部分内容阅读
近年来,网络的开放性允许任何用户访问几乎任何类型的信息。不受控制的信息,特别是不良信息在网络空间的扩散已成为互联网发展所面临的最为严重的挑战和问题之一。现有的网络内容防控技术大多是基于Web网页内容抓取的技术方案,目前较少有技术提供面向网络中传输文件(例如Word等)的内容脱敏处理。此外,目前绝大多数的引擎技术和网络信息挖掘技术主要围绕互联网中的内容平台和服务平台来展开相关数据采集、清洗、加工和处理,而较少有能在网络中通过捕获、解析网络流来实现的内容脱敏处理的平台和技术。考虑到未来网络中Word电子文档的广泛传播,应用中确实也存在对Word文档内容中用户指定的敏感信息内容扩散的防控要求,本文重点研究在线Word文档解析与内容脱敏技术。论文首先重点研究了Word文本解析。Word文档具有版本多样、格式复杂而灵活的特性。论文在深入分析和研究DOC和DOCX文件格式的Word文件解析方法的基础上,给出了DOC和DOCX两种格式的Word文档内容解析的详细流程。其次,论文研究分析了几种典型的模式匹配算法,在此基础上,提出改进的BMHS模式匹配算法模型——改进算法模型Ⅰ和改进算法模型Ⅱ。论文的分析结果显示,相比BMHS算法,改进的BMHS算法可有效减少敏感词的匹配次数,提高敏感词的匹配效率,且有效满足敏感词在Word文本内容脱敏条件下的快速匹配应用要求。为了满足与敏感词相近词的脱敏需要,论文对Word2vec算法进行了初步研究,研究结果表明,在Word2vec算法的基础上,我们可以支持对相近敏感词的脱敏处理需求。最后,论文在反向代理机制框架下,给出了一种基于网络Word文件识别、敏感内容识别定位与敏感内容脱敏处理的Word文档解析与内容脱敏技术解决方案。论文详细地介绍了包括TCP反向代理模块、连接管理与日志系统模块、内容解析模块和界面系统模块等系统各个功能模块。然后,论文对Word文本内容解析及脱敏进行了功能测试和压力测试,从测试结果来看,论文所给出的Word文档解析与内容脱敏技术解决方案可以较好地满足Word文本内容脱敏需要。论文的相关分析工作为后续深入研究高效的网络电子文档内容防控技术具有一定的参考和借鉴价值。