论文部分内容阅读
随着社会的发展和科技的进步,互联网快速普及,全球数据呈现爆发增长和海量交互的特点。其中电子文档由于可以承载大量信息,在企业和个人中应用非常广泛。然而含有敏感信息的电子文档一旦泄露或公开前未进行信息过滤,可能导致严重后果。因此,检测敏感信息和防止数据泄露,对保证电子文档的安全性至关重要。针对大数据背景下的电子文档隐私保护问题,本文研究了文本类及印章签名类敏感信息的检测算法,设计并研发了电子文档的自动化敏感信息检测系统。首先,针对文本类敏感信息,本文设计一种基于内容和上下文分析的混合检测方法。通过正则匹配和数据筛选方法,解决了有规律的数字类敏感信息检测问题。此外,构建了Ro BERTa-Bi LSTM-CRF模型用于检测命名实体类敏感信息,其中经过微调的Ro BERTa预训练语言模型实现词嵌入,结合Bi LSTM和CRF提取敏感信息。该模型能够充分利用上下文信息,经实验测试,在本文数据集上的F1得分为96.83%。其次,针对印章签名类敏感信息,本文选择YOLOv3作为基础算法,并进一步改进了YOLOv3网络,解决了该算法在手写签名检测中效果稍差的问题。网络引入了SPP结构和混合空洞卷积实现多尺度融合,从而捕获更多信息,此外,网络采用了CIo U边界框损失函数,并对先验框尺寸进行了改进。该网络在保证印章检测效果的同时,可以提升手写签名的检测效果。经实验测试,在本文数据集上的精确率和召回率分别达到了98.2%和99.3%,m [email protected]达到了98.6%。基于设计的敏感信息检测算法,本文采用B/S架构和Django框架开发了自动化文档敏感信息检测系统,包含数据交互及文件管理、文件预处理、敏感信息检测等多个模块。系统实现了用户上传,解析文件并检测,返回标注结果的完整流程。经测试,文档敏感信息检测系统的功能和性能均满足预期需求,为隐私保护提供了一种更为实用的方法。