论文部分内容阅读
近年来,互联网敏感信息的广泛传播不仅严重危害青少年的身心健康,更增加了社会的不安定因素,因此,有必要对互联网敏感信息识别技术进行深入研究。基于内容的敏感图像识别技术可以有效克服传统的基于文本过滤的方法的不足,并成为敏感信息识别领域内的研究热点和主流发展方向。在本研究领域中,基于图像视觉词袋模型的敏感图像识别方法的效果较为理想,但也存在一些问题:1)该类方法未能很好地利用敏感图像中的肤色信息,且由于词袋模型固有的特点,使得图像表示中不能反映局部特征的空间信息;2)传统的基于图像特征训练的方法将敏感图像识别问题视为一种二类分类任务,但训练样本的不均衡性限制了该类方法进一步提升识别效果的空间。本文针对以上问题,基于流行的图像词袋模型的框架,提出了两种改进的算法。本文的创新与特色主要包括以下内容:1.提出一种融合肤色信息与特征空间信息的图像特征提取及表示方法。首先,为引入肤色信息,在图像特征提取中将肤色检测技术与规则网格SIFT特征采样相结合;其次,为引入图像的局部特征的空间信息并克服词袋模型中的特征无序性的影响,采用图像空间金字塔模型表示图像向量;2.提出了一种基于支撑向量机的敏感图像识别方法(方法一)。首先,利用本文提出的融合肤色信息与特征空间信息的图像特征提取方法对训练集进行特征提取和图像表示;其次,利用支撑向量机在包含敏感图像和正常图像的训练集中训练出二类分类器。实验表明,提出的算法具有优异的综合性能,且肤色信息与局部特征的空间信息的引入均有利于提高正确识别率;3.提出了一种基于一类分类算法的敏感图像识别方法(方法二)。在该方法中,通过分析敏感图像识别的特殊性,将其视为一种一类分类任务,即该方法试图仅利用敏感图像训练一类分类器。首先,在图像特征提取操作中,采用与算法一中相同的策略;其次,在图像特征表示步骤中,与方法一不同的是,视觉词典仅由敏感图像的特征聚类而得;第三,在得到训练集图像的原始词袋表示向量之后,利用随机森林算法评估一类视觉词典中的各分量的重要性,并保留重要的分量;第四,利用重要分量对图像的原始词袋向量进行特征优化操作,得到降维后的优化向量;最后,利用一类支撑向量机训练出一类分类模型。实验表明,本算法利用小规模敏感图像训练集训练出的分类器具有良好的综合性能。