论文部分内容阅读
数据分类作为机器学习最基础的学习任务之一,随着网络化信息化的发展,所需分类的数据复杂程度越来越高。多核学习因描述数据特征能力强,是复杂数据集分类的有效方法理论。从分类角度看,数据集分为输入数据部分,是数据的空间或属性信息,和相对应的输出数据部分,是数据的类别标号信息。输入数据样本,来自自然世界或工程,其往往存在固有的制约或约束关系,这种关系本质上可以用数学流形来描述。输入数据样本在其空间中所具备的流形约束,是数据的本征特征,是人来识别目标的重要信息。然而,多核分类方法尚未充分利用输入数据样本的流形约束信息。为了利用输入数据样本的流形约束信息,本文提出了一种具有输入数据样本流形约束信息的监督型的流形正则化多核分类模型。为获取输入数据样本在其空间中的流形约束信息,需要描述它们在空间中的近邻关系程度,本文应用了能细致地评价数据间近邻关系的Hellinge r(?)巨离;同时,考虑了输出数据所表达的类别标号信息作用,即同类别数据间的近邻关系程度比不同类数据间的近邻关系程度较高的一般性知识。最后,本文给出了考虑标号信息的监督型的输入数据样本流形约束的流形正则项,将其引入监督型的多核分类模型,建立了一种具有输入数据样本流形约束的监督型的流形正则化多核分类模型,给出了该模型的求解算法。监督分类仿真试验对比的结果表明,本文提出的一种具有输入数据样本流形约束的监督型的流形正则化多核分类模型是有效的。针对实际工程中,数据的输出部分普遍是有标号和无标号同时存在的事实,本文将具有输入数据样本流形约束的监督型的流形正则化多核分类模型拓展成为一种半监督的分类模型。首先,通过欧氏距离来获取全体输入数据样本之间的近邻关系,并以此得到输入数据样本的流形约束信息;然后,扩展监督型的流形正则化多核分类模型中的多核函数在全体输入数据样本下的矩阵并计算全体输入数据样本的流形约束信息的流形正则信息;从而,拓展模型成为能够综合利用有标号和无标号数据样本的一种半监督型的流形正则化多核分类模型。本文给出了这种半监督型的流形正则化多核分类模型的求解算法、误差分析和半监督分类仿真试验对比,试验结果表明了该模型在半监督分类中的有效性。针对本文给出的一种半监督型的流形正则化多核分类模型,一方面为提高该模型的自适应性和分类准确性,本文提出了半监督型的流形正则化多核分类模型中的多核函数的参数的自动选择方法;另一方面,本文改进了半监督型的流形正则化多核分类模型中的多核组合权值的约束形式,给出p范数约束多核组合权值的模型一般解。在提出的多核函数中的参数自动选择方面,本文通过改进半监督型的流形正则化多核分类模型的数学表达式并设计求解算法,将待选的核函数参数值转化为算法的解,实现自动地确定核函数参数的具体取值。在改进多核组合权值的约束方面,通过将半监督型的流形正则化多核分类模型中的多核组合权值的固定的1范数约束,改进为一般性的p范数约束,并给出了p范数约束多核组合权值的半监督流形正则化多核分类模型的求解定理及其证明。对于两方面改进后的半监督分类模型,本文分别做了半监督分类仿真试验对比。试验结果表明,本文提出的核函数参数自动选择的半监督流形正则化多核分类模型和p范数约束多核组合权值的半监督流形正则化多核分类模型是有效的。