论文部分内容阅读
基于超图的半监督学习因其既利用了有标记数据样本的信息又利用了无标记数据样本的信息,近年成为一个研究热点,有很高的研究及应用价值,在图像处理、模式识别、语音识别等领域已经得到广泛的应用。然而超图学习仍然面临许多复杂的问题,其中有数据样本间多重相关性问题、训练数据分布不平衡问题和误标记样本问题。另外,在基于合成孔径雷达(Synthetic Aperture Radio,SAR)图像海面溢油检测应用中,除了存在这些问题外,还存在标记样本少的问题。本文围绕这些复杂分类问题,主要在以下几个方面展开了深入的研究: (1)针对样本间多重相关性问题,本文先后提出三种方法考虑样本间的相关性。第一种是在构建超边集时,增加给定半径的超球面内样本构成的一类超边,与采用最近邻算法选取的邻域构成的一类超边合成为新的超边集,然后构建超图学习模型,在多极化SAR图像数据分类学习上获得了很好的效果;第二种是结合稀疏表示构建一个稀疏超图,与传统超图线性结合成为一类新的超图学习模型,应用于图像分类学习中分类性能有较大的提升;第三种是考虑到超图学习中只有类别属性相关的表示,而没有类属无关的表示,利用成对约束理论既表现样本间的相关,也能表现类属无关,以此进一步强调标记样本的相关性,因而在超图学习模型中加入成对约束的思想,该方案在标准数据集上实验效果较好。相比于传统超图学习,这三种方法都有一定的成效,在学习性能上有不同程度的提升。 (2)针对不平衡分类问题,本文通过研究大量的不平衡处理算法,提出代价敏感的超图学习算法,定义类别重要性因子既表示一类样本的重要性,也表示错分该类样本的代价,还定义加权精度作为不平衡分类学习的性能评价指标,为多类不平衡分类评价提供了一种非常简单的评价指标。 (3)针对误标记样本问题,本文研究了目前检测误标记样本的算法,并提出一种基于超图学习的误标记样本检测方法。该方法先确定误标记嫌疑样本集与核心样本集,然后计算可疑标记样本在核心样本集上的均方残差确定误标记样本与次误标记样本集,最后以核心样本集为训练集,其他样本作为未标记样本集进行超图学习,进一步提炼误标记样本与次误标记样本集。对于误标记样本,在后续的操作中抛弃,而对于次误标记样本,减少其类属信念,达到减少对分类学习性能影响的目的,在标准数据集上实验验证了该方法的有效性,为其他研究误标记检测的学者提供了一种新的思路。 (4)在基于SAR的海面溢油检测应用中,训练集同样存在上述的误标记与不平衡问题,还存在标记样本量少的问题,为此本文通过研究目前溢油检测的方法分别提出了相应的解决方案。针对油斑与非油斑数据样本数量不平衡的问题,本文提出两种思路,一种是采用基于马氏距离的代价敏感处理算法,另一种是代价敏感的超图学习方法,两种思路都表现出了一定优势,而后者又正好适合训练样本量少的分类情况。本文设计代价敏感的多模型超图学习算法,解决油斑训练集不平衡与样本量少的问题,相比于其他传统的溢油检测方法,实验效果得到明显提升。 本文在超图学习模型上考虑样本优化问题,分别提出相应的解决方案,一定程度上改善了超图学习的性能,并且应用到基于SAR的海面溢油检测中,也取得令人满意的效果。