论文部分内容阅读
敏感数据信息一旦被外泄,后果将不堪设想。而防泄密管理中亟待解决的重大问题,即是如何能快速、准确地从大量数据信息识别敏感内容。本文首先基于敏感文本库,训练已知分类文本集;在简便有效的文本敏感特征提取方法的基础上,引入类间离散因子修正传统的TF-IDF权值确定方法;随后利用支持向量机构建分类器,以识别和判断敏感文本内容。实验表明,在查准率、查全率、F1测试值,虚警、漏检,以及处理时间等方面,该算法具有较高的准确性和高效性。