论文部分内容阅读
随着办公自动化的快速普及以及信息化的快速发展,电子设计文件已经成为学习和工作中必不可少的一种记录信息、保存信息和传递信息的载体。电子设计文件中使用较为广泛的就是Word文档。目前很多机构对于Word文档的格式要求非常严格,特别是对于国家大型的研究所,需要制定各种标准,来保证文档的格式一致性。对于国家标准类严格保密,且格式排版要求严格的文件,在设计和审查的过程中,文档的格式统一、内容完整、排版无误是必不可少的。但是在大多数情况下,编写文档的时候总会出现疏忽,导致完成后的文档不能通过格式和内容的审查,所以需要一个简单易用的工具来代替繁重的人工审查。同样对于保密性较高的文件以及包含敏感词汇的文档,需要进行适当的脱敏处理,以达到安全保存的目的。基于上述需求,本文设计并实现了电子设计文件审查系统。该系统采用浏览器/服务器(Browser/Server,B/S)架构,实现了Java和C#的跨平台通信,在Web服务的思想下,将服务端的业务拆分,实现不同模块间相互调用,达到平台的独立性和低耦合性。从功能上看,具体的实现内容主要包括以下几个方面:(1)针对基于OpenXML的Word文档,采用轻便的接口访问Word对象,进而获取该文档的所有格式属性信息。对于获取到的大量无规则的格式属性信息,采用优化算法进行有效的判断和比较,并在最终审查完成后,以各种形式保存审查结果,方便用户下载,并最终完成自动化格式修复工作。(2)实现高并发环境下压缩文件的批量审查和下载。除了支持单个文件的格式审查,还包括压缩文件的批量处理。运用Xceed.Words.NET提供的DocX插件,生成各种方便用户查看的审查文件,包括各种报告、报表、批注、表格以及特殊符号等,提供给用户下载使用。(3)采用优化的模式匹配算法以及自然语言处理工具实现文档的脱敏操作,主要针对保密性较高的内部企业提供的涉密文件,目的在于通过脱敏处理,实现涉密文件的可阅读以及可传输。通过将待脱敏文件和关键词、敏感词以及各种同义词输入系统,经过文件解析、节点读取、词语匹配、文本替换、信息保存等一系列操作,实现最终的脱敏处理,并支持脱敏处理后的文件下载和查看。(4)采用前后端分离的开发模式,通过React+Ant Design开发一套审查系统管理平台,包括用户基本信息和权限管理等,同时提供上传文件、下载文件、定制模板、用户自定义配置、破损文件自动化修复、涉密文档脱敏处理、任务批量创建、问题录入、任务考核、等级评审等。前端UI采用简洁的操作界面,增强用户的体验和系统的易操作性。通过对系统的设计与实现,完成了需求阶段提出的研究内容以及业务功能,并在系统完成之后,对系统进行详细测试。通过选择具有格式异常或存在大量敏感词汇的文档,上传到系统并创建任务,查看系统是否能够实现批量处理、自动化格式审查、格式修复、文档脱敏、任务考核和等级评审等工作。经过详细测试后,本系统能够满足对文档的上述审查操作,有效提高了文档审查的效率和准确度,并提供了一套有效的考核机制。