论文部分内容阅读
互联网上丰富的信息在方便人们工作生活的同时,也可能给人们精神生活带来不良影响,尤其色情信息会对青少年的身心造成严重影响,而其中色情图像是色情信息的重要载体。对互联网上色情图像的甄别已成为网络信息安全中的一个重要方向。网页上图像判定技术多数采用直接分析图像内容的方法,而色情图像的特征信息可能存在于其图像内容以及其相应文本如图像文件名、所在网页中,在文本信息可获得的情况下,结合这些信息可以更好地表征图像,提高判定准确性。目前对两种信息进行结合进行判定的研究较少,并且均为对两种方法在结果上的简单组合,并未实现真正融合。本文针对目前单纯依赖于分析图像语义或文本关键词的色情图像判定算法的不足,提出一种融合网络图像的相关文本特征与图像特征语义的色情图像判定算法。在视觉词袋模型的基础上,将文本分析得到的文本特征与图像局部视觉元素特征进行特征级融合,并采用支持向量机分类器实现图像分类。本文首先对色情图像特征提取方法进行了研究,包括从图像内容中进行特征提取和从图像相关文本信息中进行提取两方面。图像内容特征是通过肤色检测和视觉元素的底层特征(如颜色、纹理、局部形态)分析,通过产生视觉单词的方法生成;图像相关文本特征是通过文本分析,利用预先构建的文本关键词库进行关键词匹配得到。在此基础上,本文提出了对两种特征进行特征级融合的方法,将两种特征向量按不同权重进行融合。将融合后的特征向量输入到SVM(Support Vector Machine)分类器中分类,最终得到完整的色情图像融合判定算法。此外,设计并实现了基于本文算法的色情图像判定原型系统,通过该系统对算法效果进行了实验验证。利用从网络上获取并进行人工标注的图像数据集进行测试,并在同等测试条件下与仅使用一种信息的算法,以及同样结合了文本信息与图像内容信息进行识别的色情图像过滤软件以及已有文献中的算法进行对比。实验结果表明,该算法可以有效结合图像内容信息和相关文本信息,具有更好的判定效果。