论文部分内容阅读
针对日益严重的互联网有害信息污染问题,本文对网络内容监管系统的关键技术进行深入研究。主要工作包括: (1) 提出了基于双层分析结构的主动型网络内容监管模型,采用高速的多关键字和关键字表达式匹配算法作为第一层,采用基于SVM的文本分类算法作为第二层。该模型可以同时提升系统的吞吐率和对敏感信息识别的准确率。 (2) 设计了一种高效的多关键字匹配算法:QMS。该算法通过获得尽可能大的平均跳跃距离提高了匹配效率。进而将该算法与多关键字表达式匹配的经典计数算法结合,提高了关键字表达式匹配的效率。 (3) 发现了在英文环境中表现良好的特征选取方法并不适合中文文本分类问题的事实。分析了产生差异的原因,并提出一种适合于中文环境的特征选取方法:组合特征选取方法。该方法有利于提高分类效果和加速分类器的训练。 (4) 设计了一种训练SVM的新算法:3SAO。该算法将训练SVM的原始二次规划问题分解为序贯的子问题,每个子问题包含三个拉格朗日乘子并被解析的优化,并使用一套高效直观的启发式规则来选择被优化的乘子。该算法具有很高的收敛速度。 (5) 提出一种基于知识融合的文本分类算法:语义SVM。该算法使用语义中心集代替原训练样本集作为支持向量机的训练样本,在保证分类准确率的情况下十分显著地提高了训练速度和分类速度,而且具有良好的在线学习能力。 (6) 设计并开发了一套主动型网络内容监管原型系统。测试结果表明其监管效率和对敏感信息的识别准确率都达到预期目标。