论文部分内容阅读
秦俑是我国古代文明的典型代表,但由于长期受到自然因素的影响和人工发掘的破坏,鲜有完好的整俑出土,因此急切需要将发掘出土的碎片拼接复原。对碎片分类可以极大提高拼接效率,但在现存的秦俑碎片数据中,已标记数据量很少,而未标记数据却大量存在。针对这种现状,半监督分类技术可以充分发掘未标记数据中所携带的对分类有帮助的信息,提高分类精度。在诸多半监督分类算法中,基于图的方法最为活跃且应用最广,协同训练算法能充分考虑数据的多视图特征,因此本文以这两种算法为基础,展开对秦俑碎片分类的相关研究。主要内容如下:(1)针对秦俑类复杂关系数据,提出一种多视图表示方法。由于二部图只能反应视图间数据的关联关系,k近邻图只能反应视图内数据的相似关系,均具有一定的局限性,因此本文将二部图与k近邻图结合并改进,提出一种秦俑碎片数据的多视图表示方法:通过同时建立多个图结构,将单个视图内碎片数据的相似关系以及多个视图间碎片数据的关联关系均反应在图结构上,并将基于图的半监督分类算法应用于碎片数据的每一个视图特征上。(2)为避免协同训练中因多分类器间性能差异较大而引起整体分类性能降低的问题,提出一种加入光滑性和一致性评价指标的多分类器协同训练算法。由于秦俑碎片属性特征退化严重,致使其在多视图特征上学习得到的多分类器均不能达到理想的分类效果,本文将得到的多个分类器进行协同训练,并在协同训练过程中,加入光滑性和一致性评价指标。旨在利用碎片数据多视图特征之间的差异性,合理优化互补,协助提高每个分类器的分类性能和泛化能力,同时,光滑性尽可能使单个分类器对已标记和未标记样本预测能力相同,一致性尽可能使多分类器对未标记样本预测类别一致,以此评价指标来避免协同训练中因多分类器间性能差异较大而引起整体分类性能降低的问题。(3)设计并实现了秦俑碎片分类系统。将本文所涉及的半监督分类算法应用于秦俑碎片分类中,实现碎片图像预处理、特征提取、所属部位分类等功能。