基于矩阵分解的多聚类算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:harite
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是传统无监督学习的代表,它基于样本之间的相似度,将相似的样本划分到同一个簇,不相似的样本划分到不同的簇。然而,大多数传统的聚类算法只能产生一个聚类结果,在许多现实应用中,针对同一数据集,却可能存在多种划分方式,并且每一种划分方式都可以从不同的视角来解释得到的聚类结果。例如:水果可以根据颜色划分,也可以通过品种划分;在生物信息学中,蛋白质可以根据氨基酸序列划分,也可以通过3D结构划分。显然根据不同的视角聚类会得到不同的聚类结果,进而从不同的角度来反映数据的内在结构,因此从一个数据集中挖掘多种不同的聚类结果是非常具有现实意义。多聚类(Multiple Clusterings)研究近年来成为聚类分析中的热点和难点。现有的多聚类算法大致分为无监督和半监督的方式。无监督多聚类算法通过将冗余控制整合到统一的目标方程可以同时挖掘多个聚类,它们的不足是:(1)不能很好的控制多个聚类的差异性,聚类结果之间存在较高的冗余;(2)随着多聚类数目增加,目标方程不仅难以优化,冗余控制也随之变差。半监督多聚类算法利用已知聚类约束后续聚类的产生,它们的缺点是:(1)易受到已知聚类结果的影响,若前期聚类的结果较差,则后续的聚类结果都会受到影响;(2)在特征空间的独立性控制并不完善,通常仅使用正交的策略,且得到的多个聚类结果的可解释性较弱。此外,现有的多聚类算法几乎都仅关注样本维度的聚类,忽略了特征维度的聚类结果,而同时从样本和特征维度进行聚类(即双聚类Co-Clustering)同样也是研究者关注的重点。本文针对多聚类研究中存在的上述问题,结合独立子空间分析和基于矩阵分解的聚类方法,以提高多聚类的准确性和可解释性,以及扩展多聚类的研究维度,围绕多单向聚类和多双向聚类进行研究,主要工作如下:1.提出了一种基于独立子空间分析和非负矩阵分解的多聚类算法(MISC,Multiple Independent Subspace Clustering)。MISC首先利用独立成分分析,对特征进行独立子空间划分;为了确定子空间的个数,本文利用最小编码技术对不同子空间的划分情况进行编码,从中选择最小编码长度对应的子空间划分;然后针对不同的独立子空间分别利用基于非负矩阵分解的单聚类算法进行聚类;此外,考虑到数据的流形结构和非线性簇,将核技巧和流形正则项嵌入到非负矩阵分解的目标方程中指导分解,最终得到多个优化的子空间聚类结果。在模拟数据和真实数据上的实验结果都表明MISC相对于其它多聚类算法不仅能够对子空间进行更好的划分,而且能得到更高精度的多聚类结果,这些结果之间还具有较大的差异性。2.提出了一种基于三因式非负矩阵分解的多双聚类算法(MultiCC,Multiple Co-Clusterings),拓展了现有多聚类研究的维度。MultiCC通过执行一次三因式非负矩阵分解可以得到一个行簇指示矩阵和列簇指示矩阵,即一个双聚类结果;为了得到多个双聚类结果,同时降低它们之间的冗余,MultiCC对原始矩阵进行多次分解,同时利用行簇指示矩阵和列簇指示矩阵构建了两个冗余控制项,分别约束行簇和列簇的冗余;最后将该冗余控制项整合到目标方程中指导矩阵分解,从而指导多个差异性双聚类的发现。在多种真实数据集上的多种评价度量和基因表达数据集的上的可视化结果表明,相比现有算法,MultiCC不仅能得到多个较低冗余的单向聚类,而且能挖掘多个高质量的双聚类。3.提出了一种基于三因式非负矩阵分解的子空间多双聚类算法(MCC-SS,Multiple Co-Clusteirngs in Subspaces),优化了MultiCC算法,从数据的子空间进行多双聚类挖掘。MCC-SS假设多个双聚类是嵌入在不同的子空间中的,它首先通过引入一个投影矩阵将原始数据映射到新的子空间,然后借鉴MultiCC的方式,利用三因式非负矩阵分解得到的列簇指示矩阵和不同的投影矩阵构建冗余控制项,最后将该项整合到目标方程中指导矩阵分解,通过同时优化投影矩阵、行簇和列簇指示矩阵得到多个子空间的双聚类结果。在多个真实数据集上的结果表明,相比现有的多聚类算法,MCC-SS不仅能得到多个较低冗余的单向聚类,而且能有效的挖掘多个嵌入在子空间的双聚类。
其他文献
本文主要介绍了化纤机织产品开发工艺流程设计及原理,特别是功能性产品针对不同地域和不同标准,对原材料和工艺的调整,以及常见异常的处理。
本文对降低开口导向环的磨损、提高使用寿命进行了理论分析,介绍了卸荷槽倾角和热膨胀间隙的设计计算方法。
研究背景Dravet综合征(Dravet syndrome,DS)是一种婴儿期起病的难治性癫痫综合征,由法国医师Dravet于1978年首次报道,早期该病又称为婴儿严重肌阵挛癫痫(severe myoclonic epilepsy of infancy,SMEI)。由于并不是所有患儿病程中均出现肌阵挛发作,故2001年国际抗癫痫联盟((International League Of Against
为探明连作植烟土壤酚酸类物质积累特征及其相互作用关系,利用高效液相色谱外标法检测了同一植烟区域不同种植年限土壤(4、6、8、14和16年)浸提液中酚酸类物质的种类和含量,
从目前情况看,我国注册会计师的道德水平并不令人满意,特别是近年来财务舞弊事件层出不穷,注册会计师行业的道德危机不容小觑,提高其道德水准迫在眉睫。作为财务报告的审查者
我国资本市场发展过程中具有变革意义的重要举措就是股权分置改革,在这之后公司大股东的行为也随之变化。随着《上市公司收购管理办法》的修改以及国家出台多项激励与扶持政
李锐的小说始终关注着人类存在的困境,这主要表现在对宿命的表达上。在他的小说中,人物的宿命结局大致存在两类:人自身的性格缺陷造成的人生悲剧以及历史、社会、环境等因素导致
随着我国会计制度改革的不断深化,各地区行政事业单位的会计制度发生了较大的改变,各单位纷纷强化管理会计的工作职能,调整自身会计制度,将管理会计贯穿于财务管理全过程。会
自20世纪20年代开始,我国器乐演奏领域受到西方打击乐器的影响,同传统的吹打和丝竹乐队相互结合,逐渐形成了民族管弦乐队。本文对我国民族管弦乐队和乐队指挥的发展历程分别
针对传统纠错教学的不足,提出在纠错教学中应当适当融入情境。结合具体案例,说明物理情境在纠错教学中的作用:情境导错,即通过情境诱导出学生的迷思概念和错误认识;情境探错,