论文部分内容阅读
数据挖掘是协助管理决策的重要工具之一,随着数据挖掘的应用范围不断扩大,数据挖掘所处理的数据逐渐呈现出高维和未标记的主要特点,即高维未标记数据。对该类数据的挖掘可以称为高维数据无监督挖掘,其中缺失数据填补、数据学习建模尤其大规模在线学习建模属于其中的主要内容。本文针对高维数据无监督挖掘的这些问题,研究基于稀疏表示的高维数据无监督挖掘方法,具体研究包括以下内容。(1)针对高维数据无监督挖掘的缺失数据填补问题,研究基于局部约束稀疏表示的缺失数据无监督填补方法。提出局部约束稀疏表示(Locality Constrained Sparse Representation, LCSR)的优化目标,给出优化求解方法,其引入距离加权l1范数和l2范数正则化项,在自动选择相似数据对象的同时,保留局部结构特征并避免过拟合;提出基于LCSR的高维缺失数据无监督填补方法,并设计了三种字典构造方法;利用真实高维基因和图像数据的实验验证了该方法的有效性及参数选择的低敏感性。(2)针对高维数据无监督挖掘的学习建模问题,研究基于近邻加权稀疏表示的无监督图学习方法。提出近邻加权稀疏表示(NEighborhood Weighted Sparse Representation, NESR)的优化目标及相应的高维数据无监督图构造方法,其利用稀疏约束和近邻距离加权能同时保持高维数据的稀疏性和局部结构特征,并能降低传统的基于稀疏表示方法的时间复杂度;将提出的图构造方法融合到谱聚类、子空间学习及标签繁殖等高维数据挖掘任务;在真实高维图像和语音识别数据集上的实验验证了该算法在效果及计算效率上的优势。(3)针对大规模在线高维数据无监督挖掘的学习建模问题,研究基于多重超图约束稀疏编码的无监督字典学习方法。提出多重超图约束稀疏编码(Multiple Hypergraph Consistent Sparse Coding, MultiHC_SC)的优化目标及交替优化求解方法,其利用能有效描述高维数据多元流形关系的超图模型及超图拉普拉斯正则化约束,扩展超图矩阵对稀疏求解系数的一致性约束,增加字典学习的无监督判别能力,并通过多重集成约束项实现最优超图的自动选择:通过实验验证了提出方法]MultiHC_SC同时在静态图像聚类和在线图像聚类挖掘任务上的效果提高。