论文部分内容阅读
随着互联网发展和普及,人们可以在网络上获得各种信息,怎样防止青少年接触到色情内容是一个严肃的社会问题。要防止色情内容的蔓延,除了从法律角度采取措施外,从技术角度考虑的网络过滤技术是一种有效的手段。目前网络的过滤技术主要有三种,它们是基于URL过滤方式、基于文本的过滤方式和基于图像内容的过滤方式。其中基于图像内容的过滤方式比前两种过滤方式具有更广泛的适应性,它可以应付变化的情况,是一种更为彻底、有效的过滤方式,也是本文研究的方式。本文的过滤系统由皮肤过滤、脸部为重点的图像识别、特征提取和图像分类四部分组成。皮肤检测的作用是利用皮肤检测器从图像中检测出皮肤区域,将无关的背景清除掉,方便后续处理。皮肤检测的准确性直接影响到后续处理的精度。传统的肤检测方法由于仅仅利用了像素级上的颜色信息,因而容易把在颜色上和肤色相近的非皮肤内容错误地识别为皮肤。为此,我们提出了一个在SPM方法的基础上的改进的皮肤检测算法,改进有两点:一是利用Gabor小波提取出的纹理信息,把一些颜色接近人类皮肤但纹理特征明显的内容过滤掉,从而降低错检率;二是利用邻域信息,将通过颜色和纹理检测之后的像素点作为种子点,进行扩散操作,从而提高正检率。皮肤检测后,我们利用数学形态学的开闭运算对皮肤检测的输出进行滤波,有效地去除噪声、孔洞及假目标。将人脸检测引入过滤系统的作用有三点:一是识别以人脸为重点的图像;二是利用人脸检测的结果进行白平衡校正以提高皮肤检测精度;三是为特征提取阶段提供一个特征量。互联网上有相当部分的图像是以人脸为重点的图像,在处理的早期把这种图像识别出来的话,可以免去后续阶段可能发生的错误分类和不必要的处理。为此,需要在过滤系统中引入人脸检测技术。出于对精度和速度的综合考虑,我们采用了基于Adaboost的人脸检测算法。由于基于Adaboost的人脸检测算法只利用了灰度特征,它会将某些在灰度变化上具有人脸特征的目标识别成人脸,为了提高检测精度,我们在Adaboost的人脸检测算法的基础上,提出了改进的带了肤色验证和几何验证的人脸检测方法。互联网上的图像来源不一,有着复杂的背景和照明条件差别。肤色模型是利用皮肤颜色信息建立起来的,存在严重颜色偏差的图像必然会导致皮肤检测的精度的下降,进而影响到后续处理的性能。人脸检测后以人脸肤色作为白平衡校正的参照颜色对图像进行白平衡校正,然后重新对图像进行皮肤检测,可以进一步提高皮肤检测的精度。特征提取的作用是从图像中寻找出一组对分类最有效的属性。虽然裸体图像含有大量的裸露肌肤,但仅仅以皮肤区域的面积比例来判断裸体图像是不够的。为了更可靠地识别裸体图像,需要引入机器学习技术,为此需要从图像中提取能够区分裸体和非裸体图像的特征量。裸体图像的表现形式多种多样,很难用一个统一的模型把所有的特征表示出来。因此需要从颜色、纹理及形状等信息中提取多种特征,本文从皮肤检测器输出掩码提取了皮肤特征;从颜色信息中提取了颜色矩、色度矩和颜色相关图特征;利用小波包技术提取了纹理特征。利用Hu不变矩和在Hu不变矩上改进的基于边缘信息的不变矩,提取了形状特征。这些特征组合在一起形成一个能够把握图像整体特性的特征向量。分类器的任务是将图像识别为裸体图像或非裸体图像,虽然图像的低级特征在某一个方面刻画了图像的特性,但都有一定的局限性,无法直接描述裸体图像和非裸体图像这种高层语义概念。图像的低级可视特征与高层语义概念之间存在着一道语义鸿沟。通过机器学习手段,可以连接这道鸿沟,实现图像的语义分类。将图像分为裸体和非裸体是一个二类分类问题。SVM是一个在特征空间中构造最优分类超平面的二类分类器,分类性能有理论保证,正好适于解决我们的分类问题。分类器的分类性能在训练结束后也就固定下来了,如果训练数据不能很好地刻画出样本空间的总体分布特性,那么分类器的性能是有待提高的。基于网络图像复杂多变的特点,在分类器训练阶段就收集到完备的具有丰富代表性和多样性的训练样本是不实际的,因此我们希望找出一种机器学习方法,它可以在测试过程中,长期主动地进行学,不断提高自己的分类性能。通过对SVM主动学习、SVM增量学习、SVM增量式主动学习以及SVM直推式学习的介绍,结合SVM增量式主动学习方法和SMV渐进直推式学习方法的优点,本文提出一个能够高效地进行长期主动学习的SVM学习算法。