论文部分内容阅读
随着互联网技术的发展及智能数码产品的普及,图像的获得和使用变得越来越方便,人们需要对不断出现的图像进行分类整理。在图像分类任务中,传统的机器学习对训练集中图像样本要求较为严格,使得图像分类需要花费大量的人力和物力。当训练集中标识图像样本数目较少时,图像分类精度大大降低。自学习算法(Self-taught Learning,STL)引入大量随机的图像作为辅助图像样本很好的解决了训练集中标识图像样本数目过少对图像分类造成的不利影响。由于随机的图像可以从网络上下载又无需标识,节省了大量人力物力,因此自学习算法成为了一个基于机器学习的图像分类领域的研究热点。自学习算法包括三个步骤:提取基向量、图像重构和训练分类器。该算法的基本思想是利用大量随机的图像样本提取基向量,利用基向量对训练集中标识图像样本和待分类图像进行重构得到重构系数,利用标识图像的重构系数训练分类器并对待分类图像进行分类。本文针对该算法的不足之处进行改进,并和其他算法进行比较与分析。本文所做的研究工作主要包括以下几点:首先,为解决图像特征点选择的随机性对图像分类正确率造成的不利影响,提出一种基于图像目标特征空间自学习分类算法。该算法利用基于颜色和纹理特征的多通道局部主动轮廓模型找到图像的目标区域,然后在目标区域选取特征并对特征稀疏编码建立图像的目标特征空间。实验证明,由于基于图像目标特征空间自学习分类算法能够限定特征点均来自目标区域,因此该算法比自学习算法取得更好地图像分类效果。其次,针对自学习算法中基向量的获取方法可能存在一定的盲目性,提出了迁移式监督自学习算法。该算法利用标识图像的特征检索到与标识图像相关的图像。利用标识图像和与标识图像相关的图像在监督机制下构建一个迁移式监督自学习模型。该模型能提取稳定的基向量,同时得到初始分类器和与标识图像相关的图像对应的稀疏系数。然后采用直推式支持向量机算法利用与标识图像相关的图像对应的稀疏系数对初始分类器进行更新,并做了仿真实验,实验证明该算法的有效性。之后,针对自学习算法中对待分类图像进行分类时,分类模型没有随着分类的进行得到更新的问题。本文将基于增量层次狄利克雷过程模型与自学习算法相结合提出了基于增量层次狄利克雷过程自学习算法。首先,利用增量层次狄利克雷过程模型利用训练集标识图像样本训练分类器。在测试集中待分类图像进行分类的过程中,在输出分类结果的同时根据风险判别机制判断待分类图像是否反馈到训练集中更新分类器。该算法缓解了训练集标识图像样本数目较少对图像分类的不利影响。实验结果证明,由于该算法随着图像分类任务的进行能够不断的更新分类器,因此该算法随着图像分类任务的进行分类正确率逐渐提高,而之前的自学习算法分类正确率基本保持不变。