基于鲁棒非负矩阵分解的聚类方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liugang168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖据领域重要的基础性研究问题之一,而非负矩阵分解是一种重要的聚类分析方法。实际数据往往存在质量问题,如误差、噪声、异常点等,导致非负矩阵分解难以全面准确的反映数据的真实特性,给聚类分析带来了困难。本文针对数据的质量问题研究如何提高非负矩阵分解的鲁棒性,以及如何提高基于非负矩阵分解的聚类效果,取得的主要研究成果如下:   提出了基于半二次最小化的鲁棒非负矩阵分解方法。针对标准非负矩阵分解对非高斯噪声敏感的问题,本文采用鲁棒的半二次函数度量矩阵的质量,从而得到鲁棒的非负矩阵分解模型;提出适用于不同半二次函数的通用非负矩阵分解算法。带噪声数据的实验表明,本文提出的鲁棒非负矩阵分解的聚类方法可以有效聚类效果。   提出了基于稀疏性噪声假设的非负矩阵分解联合聚类算法。本算法从样本与特征关系中抽取一个稀疏错误矩阵,用于刻画非高斯噪声并恢复真实数据;采用绝对值损失函数降低特征与特征以及样本与样本之间噪声关系带来的图正则误差。真实数据集的联合聚类实验表明,本文提出的鲁棒联合聚类算法在性能上优于当前的主流方法。   提出了基于半二次最小化的鲁棒联合聚类方法。为了改善稀疏性噪声假设在实际应用中的局限性,本文引入半二次损失函数来分别度量特征与样本关系矩阵的重构误差以及样本与样本、特征与特征关系的图正则误差,从而得到应用面更广的鲁棒联合聚类方法。   提出了区间非负矩阵分解方法。实际应用中观测到的数据不可避免的存在一定的误差,给矩阵分解带来了挑战。本文通过均匀分布的区间近似表达数据可能的取值,提出基于区间上下界矩阵的联合非负矩阵分解方法。结合人脸聚类分析和协同过滤两个应用,给出了构造均匀分布对应的区间上下界矩阵方法。实验结果表明区间矩阵分解方法明显优于对应的单值矩阵分解方法。   提出了基于加权图正则非负矩阵分解的聚类集成算法。聚类集成的输入数据有基于簇特征和多重关联关系的两种表示形式。当前聚类集成方法仅仅使用其中一种表示形式进行聚类。由于这两种形式在集成任务中存在相关性,本文同时利用两种表示进行聚类集成,一方面利用簇特征表示进行非负矩阵分解,另一方面利用多重关联关系表示进行加权合并辅助聚类。   以上主要研究成果发表在IEEE International Conference on Data Mining(ICDM2012)和The International Joint Conference on Artificial Intelligence(IJ-CAI2013)等国际会议。
其他文献
计算机和网络技术的发展,使得我们可以更方便有效地保存、共享和传播各类信息,也催生了对可靠的身份认证技术的需求。传统的口令和卡片认证等方式不易管理、使用也不方便,而且不
DFT(离散傅里叶变换)是在信号处理、数据图像处理、数值计算等科技和工业领域应用较为核心和重要的一类变换,FFT(快速傅里叶变换)则是DFT的一种最广泛使用的高效计算方法。而DST(离
故事在儿童的成长过程中起着关键的作用,故事叙述已被证明可以有效地帮助儿童提高读写能力、听力、词汇能力、创造力和想象力等多个方面。随着计算机技术的发展和信息技术的不
资源下载、流媒体等内容共享类业务已经成为当前互联网的主要业务之一,随着互联网用户群规模的膨胀和用户对业务要求的不断提高,传统的客户端-服务器模式已经不再适合,P2P技
该文对查询并行处理技术进行了研究,在分析己有研究的基础上,提出了自己的观点、技术和方法,主要的研究工作如下:1、论述了现有常用的数据划分方法,包括各种一维数据划分方法、多
学位
自然语言表现出多种多样不同的单词顺序,而统计机器翻译所面临的主要挑战之一就是如何模拟这些顺序的差异。机器翻译被看做是由两个相关联的问题组成:预测译文中的单词和决定
NoSQL存储系统是大数据时代催生的一种新的存储系统,该类系统因为其高效的读写性能被产业界广泛的应用。目前有代表性的NoSQL系统有HBase、Cassandra、Redis、MongoDB等,这些系
本文致力于基于余代数的模型检测和定理证明。   形式化验证的一种主要方法是模型检测,其优势是可以自动化,并能在系统不满足性质时提供反例路径;劣势是当系统并发程度较高
随着科学技术的快速发展,互联网极大的改善了人们的日常生活,但它也带来了诸多安全隐患。互联网安全管理人员为了确保网络系统的安全,及时防范由于安全漏洞被黑客利用所造成