论文部分内容阅读
网络的开放性和日益增长的规模,使其成为人们自由交流信息的便捷手段。但同时这种开放性也使网络中存在着很大的负面效应,如各种迷信、色情、暴力、反动和其他非法信息的传播,或者内部网中机密信息的泄漏等,都已成为了人们日益关注的焦点问题。而传统的过滤技术,如基于关键字,或基于IP地址的过滤等,现已不能很有效的解决这些问题。 在这种需求下,本文针对文本内容的分析过滤技术进行了研究,希望能对网络信息内容进行分析,达到对网络信息的安全过滤。目前基于内容的分析方法常用的是基于统计和知识或两者相结合的方法。本文对这些方法做了初步的研究后,提出了一种基于文本内容的过滤算法。首先根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征过滤模型作为匹配模板,再根据待测文本与信息特征过滤模型的匹配情况来判定待测文本是否满足用户过滤需求。在该算法中我们综合考虑了文本的统计特性和知识特性两方面因素,借助向量空间模型的思想,将文本表示为向量空间的形式,并在此基础上,结合词的属性特征来分析文本的整体特征。同时,由于基于统计的文本过滤技术忽略了文本中的语义约束,不能真正达到对文本的智能分析而获得较好的过滤效果,所以我们在该算法中还引入了局部语义分析,不仅从整体特征还从局部特征对文本进行分析,从统计特性和知识特性两个角度实现对文本的分析过滤,经初步测试获得了对特定信息的安全过滤的较好效果。 初步的测试表明,文中所提出的算法能够实现对文本中的假匹配等现象的识别,从对文本内容的分析达到对文本的安全过滤,获得了较好的效果。但要对文本进行内容分析,使过滤智能化,是一个复杂漫长的过程,我们提出的算法只是一个开端,其中还存在着很多需要改善和可以改进的问题,如:分词的准确率的改善、文本的特征表示对文本内容表达的准确度的改善等,以及在满足网络信息安全过滤的实时性要求的前提下,还可以引入更多的语义分析来提高过滤的准确