论文部分内容阅读
基于机器学习的图片分类是指,利用机器学习生成一个神经网络,该网络可以给出相应图片的类别,这种方法相较于传统的图像识别方法更加快捷高效,也越来越多的应用于实际的应用系统中。但是基于机器学习的手绘卡通画分类系统十分稀少,本文针对如何构建这类系统以及其可能的应用前景开展了研究并实现。目前绝大部分可用于训练图像分类网络的数据集都是真实世界采集的图片,但是神经网络的分类能力与网络使用的数据集密不可分,实验结果也表明,若使用真实图片训练生成神经网络,得到的神经网络是无法分类卡通画图片的。不仅如此,现有的先进的分类神经网络也都是针对真实图片数据集进行优化的,并没有针对卡通画设计的神经网络结构。针对卡通数据集稀少以及没有针对卡通画的分类神经网络的现状,本文提出了一个基于机器学习方法的手绘卡通画语义分类系统。本文的研究成果如下:(1)实现了手绘卡通画数据集生成系统。我们通过从互联网收集的包含11个不同类别的4000个图像构建我们的基准数据集,并通过采用三种方法使我们的数据集扩充至10000张卡通画图片。这些方法包括:第一,使用自定义的卡通着色器,通过特殊的光照模型与边缘检测着色器相结合,使渲染的3D模型拥有手绘风格,最后进行多角度拍摄生成卡通画;第二,利用卡通画建模应用,将2D图片建模成3D模型,再利用自定义着色器渲染手绘风格,最后多角度拍摄,实现了一个2D-3D-2D的升维再降维的生成卡通画方法;第三,使用手绘风格化过滤器,将原始卡通图像转化为多种不同卡通风格,实现了彩铅风格、蜡笔风格等图像风格化方法,进一步提升了卡通画数据集的数据多样性。(2)实现了针对手绘卡通画的分类神经网络系统。本文采用的神经网络架构共有三项创新性的策略。通过利用这三项技术,系统的分类准确率较于目前最好的网络有5%的提升。这些策略包括:第一,输入统一风格化策略,该策略的主要思想是,通过对网络结构的输入图片作预处理,在不减少图片信息的情况下降低图片的复杂程度,以此来提升分类准确率;第二,特征插入型神经网络结构,该方法通过往神经网络特定位置插入全局特征,利用卡通画背景复杂度低,且前景大部分都是大色块的特点,插入颜色直方图等统计学信息,来提升网络的分类能力;第三,叠加型神经网络架构,该方法先通过预训练多个单一的网络,分离并提取网络主题,叠加特定位置的特征层作为新的混合网络,最后再训练成一个全新的网络,获得更强大的特征层,进一步提升了系统的分类能力。(3)本文还提出了基于卡通画语义分类的应用程序扩展。比如在卡通画建模时加入与卡通画语义分类匹配的声音或骨骼动画,还实现了结合语义信息的骨架提取方法,给之后的工作提供了参考。