论文部分内容阅读
随着互联网的日渐普及与网络技术的急速发展,互联网逐渐成为人们信息交流与共享的高效方便的平台,但是,网络的发展也带来了很多负面问题,色情信息的泛滥即为最突出的问题之一,堵截色情图片的发送与散播这一需求迫在眉睫。堵截色情图片的传播,关键在于色情图片的识别。韩国学者J. Chi-Yoon针对该问题提出了结合人脸识别、肤色识别等图片预处理环节和ICA独立成分分析算法和SVM分类器来处理裸露图片的识别问题。与其他模式识别问题类似,色情图片的识别问题也可以归结为特征提取和分类器训练两个部分。图像的特征可以分为两类,即基于人的认知系统的特征与基于机器的特征,对于色情图像,人的视觉感官特征有:大面积的皮肤裸露,敏感部位的裸露,人脸。机器数据特征是指图像中基于数学统计量的特征,是人的认知系统难以理解的。PCA(principal components analysis)是图像处理算法中最重要的一种,也是多元数据分析中最重要的方法之一,广泛应用于多个图像处理领域。但PCA只去除了数据的线性相关性。ICA(independent components analysis)是一种为解决盲源分离问题发展起来的信号处理技术,ICA的目的是把混合信号分离为相互独立的分量,相比PCA,它强调分解出来的各分量相互独立,而不仅仅是不相关,而且充分利用了数据的高阶统计信息,ICA近年来得到了快速发展,广泛应用于指纹识别、模式识别、生物图像分析等研究领域。人工神经网络和朴素贝叶斯算法是两种最重要的特征分类算法,但神经网络具有局部极小点、过学习等固有缺陷。SVM是Vapnik等人提出的一种基于统计学习理论的机器学习方法,以最大化分类间隔构造最优分类超平面来提高分类器的泛化能力,解决了神经网络无法解决的局部极值问题,SVM已逐渐作为一种重要的分类算法被广泛应用。