论文部分内容阅读
为了防止敏感数据的泄露,为数据的访问控制提供依据,提出并实现了一种基于中文文本内容的敏感数据识别方法。通过对敏感数据库和已知分类文档库的学习,完成对文本中敏感数据识别的阙值的确定和未知文档是否敏感数据的判断过程。描述了预处理、文本识别、阙值确定的详细设计和实现过程。通过对搜狗语料库中教育相关部分文本的识别,验证该方法的敏感数据识别过程简单实用并且具有较高的正确率。