论文部分内容阅读
聚类分析是数据挖据领域重要的基础性研究问题之一,而非负矩阵分解是一种重要的聚类分析方法。实际数据往往存在质量问题,如误差、噪声、异常点等,导致非负矩阵分解难以全面准确的反映数据的真实特性,给聚类分析带来了困难。本文针对数据的质量问题研究如何提高非负矩阵分解的鲁棒性,以及如何提高基于非负矩阵分解的聚类效果,取得的主要研究成果如下:
提出了基于半二次最小化的鲁棒非负矩阵分解方法。针对标准非负矩阵分解对非高斯噪声敏感的问题,本文采用鲁棒的半二次函数度量矩阵的质量,从而得到鲁棒的非负矩阵分解模型;提出适用于不同半二次函数的通用非负矩阵分解算法。带噪声数据的实验表明,本文提出的鲁棒非负矩阵分解的聚类方法可以有效聚类效果。
提出了基于稀疏性噪声假设的非负矩阵分解联合聚类算法。本算法从样本与特征关系中抽取一个稀疏错误矩阵,用于刻画非高斯噪声并恢复真实数据;采用绝对值损失函数降低特征与特征以及样本与样本之间噪声关系带来的图正则误差。真实数据集的联合聚类实验表明,本文提出的鲁棒联合聚类算法在性能上优于当前的主流方法。
提出了基于半二次最小化的鲁棒联合聚类方法。为了改善稀疏性噪声假设在实际应用中的局限性,本文引入半二次损失函数来分别度量特征与样本关系矩阵的重构误差以及样本与样本、特征与特征关系的图正则误差,从而得到应用面更广的鲁棒联合聚类方法。
提出了区间非负矩阵分解方法。实际应用中观测到的数据不可避免的存在一定的误差,给矩阵分解带来了挑战。本文通过均匀分布的区间近似表达数据可能的取值,提出基于区间上下界矩阵的联合非负矩阵分解方法。结合人脸聚类分析和协同过滤两个应用,给出了构造均匀分布对应的区间上下界矩阵方法。实验结果表明区间矩阵分解方法明显优于对应的单值矩阵分解方法。
提出了基于加权图正则非负矩阵分解的聚类集成算法。聚类集成的输入数据有基于簇特征和多重关联关系的两种表示形式。当前聚类集成方法仅仅使用其中一种表示形式进行聚类。由于这两种形式在集成任务中存在相关性,本文同时利用两种表示进行聚类集成,一方面利用簇特征表示进行非负矩阵分解,另一方面利用多重关联关系表示进行加权合并辅助聚类。
以上主要研究成果发表在IEEE International Conference on Data Mining(ICDM2012)和The International Joint Conference on Artificial Intelligence(IJ-CAI2013)等国际会议。