Word文档解析及脱敏技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户：jiangtianyu1314

【摘要】

：

近年来,网络的开放性允许任何用户访问几乎任何类型的信息。不受控制的信息,特别是不良信息在网络空间的扩散已成为互联网发展所面临的最为严重的挑战和问题之一。现有的网络

【作者】

：

廖怨婷

【出处】

：

西南交通大学

【发表日期】

：

2018年期

【关键词】

：

内容防控内容解析内容脱敏 Word文档 BMHS算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,网络的开放性允许任何用户访问几乎任何类型的信息。不受控制的信息,特别是不良信息在网络空间的扩散已成为互联网发展所面临的最为严重的挑战和问题之一。现有的网络内容防控技术大多是基于Web网页内容抓取的技术方案,目前较少有技术提供面向网络中传输文件(例如Word等)的内容脱敏处理。此外,目前绝大多数的引擎技术和网络信息挖掘技术主要围绕互联网中的内容平台和服务平台来展开相关数据采集、清洗、加工和处理,而较少有能在网络中通过捕获、解析网络流来实现的内容脱敏处理的平台和技术。考虑到未来网络中Word电子文档的广泛传播,应用中确实也存在对Word文档内容中用户指定的敏感信息内容扩散的防控要求,本文重点研究在线Word文档解析与内容脱敏技术。论文首先重点研究了Word文本解析。Word文档具有版本多样、格式复杂而灵活的特性。论文在深入分析和研究DOC和DOCX文件格式的Word文件解析方法的基础上,给出了DOC和DOCX两种格式的Word文档内容解析的详细流程。其次,论文研究分析了几种典型的模式匹配算法,在此基础上,提出改进的BMHS模式匹配算法模型——改进算法模型Ⅰ和改进算法模型Ⅱ。论文的分析结果显示,相比BMHS算法,改进的BMHS算法可有效减少敏感词的匹配次数,提高敏感词的匹配效率,且有效满足敏感词在Word文本内容脱敏条件下的快速匹配应用要求。为了满足与敏感词相近词的脱敏需要,论文对Word2vec算法进行了初步研究,研究结果表明,在Word2vec算法的基础上,我们可以支持对相近敏感词的脱敏处理需求。最后,论文在反向代理机制框架下,给出了一种基于网络Word文件识别、敏感内容识别定位与敏感内容脱敏处理的Word文档解析与内容脱敏技术解决方案。论文详细地介绍了包括TCP反向代理模块、连接管理与日志系统模块、内容解析模块和界面系统模块等系统各个功能模块。然后,论文对Word文本内容解析及脱敏进行了功能测试和压力测试,从测试结果来看,论文所给出的Word文档解析与内容脱敏技术解决方案可以较好地满足Word文本内容脱敏需要。论文的相关分析工作为后续深入研究高效的网络电子文档内容防控技术具有一定的参考和借鉴价值。

其他文献

高中思想政治课堂提问中的问题及对策

高中思想政治课教学中,教师要有针对性、趣味性的设置探究问题,激发学生思维能力、活跃课堂氛围、提升高中思想政治课的教学效果。

期刊

高中思想政治课课堂提问问题对策

故乡

教学目标:知识与技能目标:1.了解小说的特点;2.理解文章主题。过程与方法:学会分析人物形象。情感态度价值观:理解旧中国的苦难,珍惜今天的幸福生活。教学重点:1.通过人物的

期刊

《故乡》情感态度价值观文章主题人物形象技能目标教学目标幸福生活教学重点

从国际影响力50强谈高职院校国际化人才培养的实践与研究

本研究选取了2016年-2018年高等职业院校国际影响力50强中的院校作为研究对象,通过调研了解这些院校的国际化职业人才培养的情况,对职业教育人才培养、对外交流与合作办学的

期刊

国际影响力国际化人才培养International influenceinternationalizationpersonnel training

浅谈SCR投运后空预器堵塞及在线冲洗方法

SCR装置氨逃逸,特别是在低温低负荷运行条件下,极易造成喷氨过量,在空预器冷端生成硫酸氢铵,是导致空预器堵塞的主要原因。此外,煤质、空预器冷端壁面温度、催化剂活性、低负

会议

烟气脱硝空预器堵塞硫酸氢铵氨逃逸在线冲洗

一则素材的N 种玩法

教学目标:1指导学生学习“玩转素材”的重要意义,初步掌握该种写作的思路和方法;2、学会多角度地观察生活,对自然、社会和人生有自己的独特感受和思考;3、拓宽学生视野,学会

期刊

作文素材玩法信息转化观察生活写作范式教学目标阅读积累教学重点

幼儿园大班语言教学探析

人类语言发展的最关键阶段就是幼儿阶段,这一时期是人类语言的开发阶段,大班语言教学更是关键,因此幼儿园教育中大班幼儿语言教育至关重要。作为幼儿园一线教师,我结合自己的

期刊

幼儿园大班语言教学幼儿语言教育人类语言一线教师生活经验幼儿园教育生活中的数

论《海上交通事故调查报告书》的证据效力

海事调查报告，是海事管理机构对负有行政责任的事故当事人进行行政处罚的重要依据。至于海事调查报告在司法审判过程中的法律效力如何，无论是立法者还是学者都尚无定论。这既不

期刊

海事调查报告海事调查海事审判行政责任证据the Marine Investigation Report the marineinvestigation

新型药剂配方防治菠萝主要害虫的效果

菠萝主要害虫新型防治药剂配方(15%噻虫嗪,40%硫磺,15%氨基酸,填料补足100%)对菠萝主要害虫粉蚧、大蟋蟀和蛴螬具有较好的防治效果,防治效果分别达到91%、95.5%、88.67%。经

期刊

菠萝防治药剂配方

厄贝沙坦对糖尿病大鼠心肌纤维化中基质金属蛋白酶通路及相关因子的影响

目的观察厄贝沙坦是否对抗糖尿病大鼠心肌纤维化,探讨其对基质金属蛋白酶(MMPs)通路相关因子的影响。方法 30只雄性SD大鼠随机分为对照(Con)组、糖尿病(DM)组、厄贝沙坦+糖尿

期刊

糖尿病心肌纤维化厄贝沙坦基质金属蛋白酶

自拟益气脱敏汤联合西药治疗小儿变应性鼻炎53例临床观察

目的观察自拟益气脱敏汤联合西药治疗小儿变应性鼻炎的临床疗效。方法选取2016年1月至2017年6月在我科接受治疗的106例变应性鼻炎患儿,随机分为对照组和治疗组,各53例。对照

期刊

变应性鼻炎小儿自拟益气脱敏汤氯雷他定片临床观察

Word文档解析及脱敏技术研究

与本文相关的学术论文