论文部分内容阅读
由于网络信息发布缺少有效的监督机制,越来越多的不良信息出现在网络上。为了构建和谐健康的网络环境,自动的信息过滤技术具有重要研究价值。为了逃避现有的过滤系统,当前不良信息发布者越来越多地以图像的形式发布不良文本信息,这给不良信息过滤研究提出了新的挑战。本文针对网络上的文本图像信息进行不良信息过滤研究,其包括文本图像的字符识别和识别后文本过滤两个方面的研究内容。为了提高过滤的准确性,本文对文本图像过滤的一些关键技术提出了建设性的方法。通过文本定位和文本抽取研究提高复杂背景文本图像中的字符识别性能,同时通过文本主题识别和文本倾向性分析相结合的方法来提高文本过滤的准确率。本论文的主要工作如下:1、本文提出了基于连通分量的文本定位方法。该方法利用了字符几何形状特征和文本区域内字符整体特征,并将两类特征有效地融合到分类过程中。同时,本方法使用了级联弱分类器和支持向量机相结合的分类方法来确认字符。实验结果显示该方法具有较高的定位准确率。2、针对复杂背景图像的文本抽取问题,本文提出了一种基于HSL颜色空间的抽取方法,用于消除字符颜色不一致和复杂背景的影响。该方法将文本区域分为三种不同的颜色类型,对不同类型的文本区域,采用HSL颜色空间中相适应的颜色分量进行分割。该方法充分利用HSL各个分量的优势。实验结果表明了该方法的有效性。3、在文本过滤方面,本文采用主题来表示过滤模板,通过识别文本主题来确认是否需要过滤。本文提出了基于概念知识树的主题识别方法。该方法利用了概念知识树的层次关系和节点属性信息来确认文本主题的核心概念,并利用概念的语义关系构建一个复合概念来表示文本的主题。实验表明该主题识别方法具有较高的性能,并能有效地运用于文本过滤系统中。4、为能够准确识别具有相同主题的正面和反面文本,文本情感倾向性特性被用于文本过滤。本文提出了基于主题词上下文词汇的文本倾向性分析方法。该方法认为文本的倾向性与文本的主题相关,而且可以通过主题词的上下文词汇对主题词的相互作用来表示。基于主题词的倾向性分析能够有效的消除文本内容变化带来的困难。实验结果显示了该方法的有效性。