论文部分内容阅读
数据分析的方法在近年来受到了广泛关注,学者们提出了数据降维,稀疏性,低秩性等几类方法来处理具有复杂结构的数据.数据降维是一种传统的用于挖掘数据单一流形结构的方法,很多半监督数据降维方法是由有监督数据降维方法推广而来,但是这些方法都是利用所有无类别标签信息的样本且不能保证没有样本起到负作用.稀疏性和低秩性在近年来被用于分析具有单一子空间或混合多子空间结构的数据.在贝叶斯统计中有很多先验都可以在模型中引入稀疏性,但是贝叶斯模型中往往仅通过矩阵分解引入低秩性质,这使得后验结果易受到秩的初值的影响.对于具有混合子空间结构的数据,低秩表示模型可以在子空间独立时在理论上保证其有效性,但是对于更一般的不相交子空间的情况,没有深入的分析.此外,稀疏低秩的方法使用线性表示难于处理具有非线性流形结构的数据.首先,本文提出一个将有监督降维算法推广成半监督降维算法的方法,这个方法通过低秩回归分析来选择很可能起到积极作用的无类别标签信息样本而不是利用所有的无类别标签信息样本,此外,将低秩回归分析和谱图分析相结合可以得到对整体空间进行限制的无监督和有监督的降维方法.其次,本文提出一个关于低秩的先验,并利用该先验将鲁棒主成分分析模型和低秩表示模型作为例子演示如何将秩惩罚的模型用贝叶斯的方式阐述,该方法不依赖于秩的初值.再次,本文提出一个结构限制的低秩表示方法,该方法不仅可以在理论上保证其在独立子空间情况下的效果,还能保证其在不相交子空间情况下的效果,此外,该方法还被用于基于图的半监督学习中.之后我们对结构限制低秩表示模型进行进一步的研究,理论上说明了最大奇异值范数比核范数更适合与稀疏性结合,提出了稠密块稀疏表示方法,该方法通过最小化矩阵的2范数和1,1范数,在不使用结构限制的情况下可取得和结构限制的低秩表示模型相近的效果.最后,本文提出贝叶斯低秩稀疏非线性表示方法,利用变分贝叶斯求解使得该方法的后验推断中只有关于样本的内积从而易于核化,通过对不同的问题构造不同的核,该方法可以用于处理具有混合非线性流形结构的数据.大量的实验结果证实了本文所提方法的有效性.