论文部分内容阅读
作为信息时代的重要标志之一,Internet上的万千信息,给人们的工作、学习、生活带来了极大便利。但在信息的海洋中,还夹杂着一些不良内容的浮渣,它们给社会带来相当大的“不良信息冲击”。基于互联网的不良信息过滤技术就是在这种情况下诞生的。互联网信息过滤(Information Filtering)是指从海量的WEB文本中识别出含有不良信息的非法文本,以将其屏蔽。目前它已成为信息过滤的一个新的研究领域。 信息过滤使用的技术主要有基于关键字的过滤、基于过滤法则的过滤和一些基于内容分析的过滤技术。本文首先介绍了课题的研究背景及国内外研究现状,系统地探讨了信息过滤所涉及的各个方面的理论和技术,包括信息过滤系统的分类、主要数学模型及文本分类算法等。 本文在对国内外各种用于信息过滤方法进行分析研究及初步评估的基础上,为提高系统过滤不良信息的整体性能和运行速度,提出二级过滤的策略,即第一级基于关键字和基于禁用IP地址的过滤及第二级基于文本内容的过滤。 本文系统地分析了非法文本的特点,总结了非法文本内容和用词的特征,并详细论述了系统所采用的关键技术,即分词技术及特征提取技术。将最大正向匹配的分词方法、开方拟合检验(CHI)的特征提取方法及基于内容分析的KNN文本分类算法这些技术应用到非法网页过滤中,并基于Windows系统进行了实施。 最后,采用国际上通用的相关评估方法,对本方案的实施进行了测定和评估。评估结果显示,本方案取得了较好的过滤效果。