【摘 要】
:
在机器学习、计算机视觉、模式识别等领域,如何有效地处理高维数据是科研工作者们经常面临的难题。数据的高维性不仅会增加算法的运算时间和内存需求,而且高维噪声的存在会对算法的性能带来不利的影响。子空间聚类作为处理高维数据的一种强有力方法,将来自不同类别的数据划分到其本质所属的子空间内,理想情况下,每个类别对应一个子空间,通过子空间聚类既完成了对数据的高效降维,也完成了对不同类别数据的聚类。低秩表示作为子
【基金项目】
:
国家自然科学基金(60875004);
论文部分内容阅读
在机器学习、计算机视觉、模式识别等领域,如何有效地处理高维数据是科研工作者们经常面临的难题。数据的高维性不仅会增加算法的运算时间和内存需求,而且高维噪声的存在会对算法的性能带来不利的影响。子空间聚类作为处理高维数据的一种强有力方法,将来自不同类别的数据划分到其本质所属的子空间内,理想情况下,每个类别对应一个子空间,通过子空间聚类既完成了对数据的高效降维,也完成了对不同类别数据的聚类。低秩表示作为子空间聚类近十年来最热门的算法模型,凭借其易于操作、对噪声鲁棒性好、聚类效果显著等优势赢得了广泛的关注。本文立足于此,通过解决传统低秩表示存在的缺陷并由此提出新的基于低秩表示的子空间聚类算法模型以达到提升聚类表现的目的。本文的主要研究内容如下:1.基于具有非负稀疏拉普拉斯约束的潜在低秩表示的鲁棒子空间聚类(Robust subspace clustering based on latent low rank representation with non-negative sparse Laplacian constraints)针对传统低秩表示算法存在的缺陷如直接使用原始数据作为字典、只考虑了数据的全局结构而忽略了数据的局部几何结构以及表示矩阵可能存在负值的问题,本文提出了一个新的基于低秩表示的子空间聚类算法模型—非负稀疏拉普拉斯约束的潜在低秩表示(non-negative sparse Laplacian constrained latent low rank representation,NNSLLatLRR),通过采用潜在低秩表示模型框架代替原低秩表示模型,克服了在数据污染很严重及样本采样不充足时直接使用原数据矩阵作为字典导致的聚类效果严重下滑的问题,并同时对表示矩阵施加三项有效约束—稀疏约束、拉普拉斯约束和非负约束,这三项约束为表示矩阵引入了丰富的结构信息,不仅有利于获取数据的局部几何结构而且提高了算法模型的可解释性,使得表示矩阵能更准确地反映出数据样本间的真实相似度关系,大大地提升了模型的表示能力,从而达到了提升算法模型聚类精度的目的。2.基于非负拉普拉斯约束下Frobenius范数最小化的潜在低秩表示子空间聚类(Subspace clustering based on non-negative Laplacian constrained Frobenius norm minimization based latent low rank representation)针对传统低秩表示算法基于核范数最小化优化求解时需要进行多次奇异值分解操作,而奇异值分解十分耗时耗力,本文提出了一个新的基于低秩表示的子空间聚类算法模型—非负拉普拉斯约束下Frobenius范数最小化的潜在低秩表示(non-negative Laplacian constrained Frobenius norm minimization based LatLRR,NLFLatLRR),该模型同样采用潜在低秩表示模型框架代替原低秩表示模型,并对表示矩阵施加非负约束和拉普拉斯约束以达到提升模型抗噪鲁棒性和表示能力的目的。此外,还通过使用Frobenius范数最小化代替核范数最小化,可以在保证聚类精度的前提下,使得算法的计算复杂度大幅降低,运行时间得到极大缩减,从而大大地提升了模型的聚类性能。3.基于Frobenius范数约束下的非负拉普拉斯潜在低秩表示子空间聚类(Subspace clustering based on Frobenius norm constrained non-negative Laplacian based latent low rank representation)针对传统低秩表示算法得到的表示矩阵中表示系数不能准确反映样本间真实相似度关系进而影响聚类准确度的问题,我们致力于构造一个类内密集、类间稀疏的结构性质优良的表示矩阵,对此,本文提出了一个新的基于低秩表示的子空间聚类算法模型—Frobenius范数约束下的非负拉普拉斯潜在低秩表示(Frobenius norm constrained non-negative Laplacian based latent low rank representation,FNLLatLRR),为了鼓励属于同一类的数据点之间更紧密的连接,我们使用Frobenius范数正则项进行约束,使得类内表示更加密集,此外,在以潜在低秩表示为模型框架的基础上对表示矩阵施加非负约束与拉普拉斯约束,减少了不相关数据点之间的错误连接,促进了表示矩阵的类间稀疏性,由此得出的表示矩阵结构性质优良、利于聚类,表示系数能够尽可能准确地反映出数据样本之间的真实相似度关系,并以此为基础提升了最终的聚类精度。
其他文献
微灌在世界范围内得到广泛应用,它可以有效节省灌溉用水量,并可以提高农产品产量和质量。但是微灌也有投资费用较高的缺点。微灌主要有滴灌、微喷灌和小管出流灌(涌泉灌)等类型。其中,小管出流灌在中国北方果树灌溉(如苹果)中应用比较广泛,为保证小管出流均匀,大多安装稳流器,即通过稳流器将灌水小管与毛管连接起来;滴灌应用最为广泛,传统的孔口滴头已被压力补偿式滴头所代替,采用压力补偿式滴头可以获得很高的滴灌均匀
随着内镜技术的发展,内镜下黏膜下剥离术已广泛应用于无淋巴结转移的早期胃癌。但是临床上早期胃癌患者内镜下黏膜下剥离术标本的中常发现分化和未分化混合成分,定义为混合型早期胃癌。近年来研究发现,混合型早期胃癌较纯型早期胃癌有更强的侵袭性,更高的淋巴结转移发生率,有学者提出混合型早期胃癌患者应谨慎选择内镜下黏膜下剥离术。文章就近年来混合型早期胃癌的研究进展做一综述。
极端降水是降水事件中的一种极端情况,由此引发的旱涝灾害及泥石流、滑坡等次生灾害,给人类社会造成巨大的经济财产损失,严重影响生命安全。因此,研究有效的统计模型来分析极端降水事件的规律,以增强对极端气候现象的适应能力,就变得十分必要和紧迫。极端降水事件受众多因素的影响且各因素之间相互影响,往往无法用一个变量来完整描述和全面反映降水事件特征,需要用多个变量从不同角度来表示。因此,构建合理的联合概率分布模
随着科学技术不断发展,信息数据呈指数级增长,用户面临信息过载问题。推荐系统可以有效地帮助用户筛选数据,提供精准的需求信息以及服务。受深度学习算法取得的成果启发,出现了更多基于深度学习方法的推荐算法,其中,基于自编码机的推荐算法取得了显著的效果,但该类方法仅将数据集中有限的物品特征信息作为辅助信息。此外,辅助信息只是被简单地融入到模型中,缺少深层次的数据处理。为了解决上述问题,本文在基于自编码机的推
泵站前池是外河和进水池(进水流道)的连接段,其作用是为了保证水流在从外河流向进水池(进水流道)的过程中能够平顺地扩散,为进水池(进水流道)提供良好的流态。依据水流方向,前池可分为正向进水前池和侧向进水前池两种基本类型,侧向进水前池拥有占的地方少、投资省等各种特点,在中国的农业灌溉、火电厂循环供水及城战给水排水泵站中较为常见,若泵站兴建所处地形条件狭窄、正向进水不容易布置的情况下常采用侧向进水前池,
可逆逻辑在量子计算、光计算和低功耗线路等新兴领域中具有良好的应用前景,许多量子算法需要计算一些经典的逻辑函数,直接利用可逆逻辑线路来实现逻辑函数常常需要消耗大量资源。因此,可逆逻辑线路的综合与优化成为近些年的研究热点。本文研究内容主要分为以下几方面:1、基于最小权和模板匹配的Oracle线路优化针对布尔函数f(x)集合构建的Oracle线路,提出了一种基于最小权和模板匹配的优化算法。整个过程可以分
混沌是非线性系统中普遍存在的一种非周期运动形式,其涉及到自然科学和社会科学的每一个分支。混沌系统具有随机性,初值敏感性与非规则性等特征,被大量应用于物理、通信、经济、工程等领域。近年来,随着计算机技术的发展,使得对混沌的研究更加深入,学者们发现了分数阶微积分理论在混沌理论中的应用优势,将混沌的阶拓展到分数的范围,得到分数阶混沌模型。研究与实现分数阶混沌系统的控制与同步具有理论与实践价值。本文研究了
随着工业过程日趋复杂,系统存在着未建模动态、输入量化、输入死区、执行器故障和随机扰动等多种不确定因素。由于生活质量的提高,人们对控制系统性能的要求也与日俱增,传统控制方法仅考虑系统的稳定性已不能满足实际需求,而预设性能控制既考虑了系统的稳定性也考虑了瞬态性能。近年来,具有未建模动态、输入量化、输入死区和执行器故障等多种不确定的随机输出反馈非线性系统自适应控制已成为控制理论研究的热点之一,此项研究具
随着科技进步以及信息技术的快速普及,深度学习成为研究热点,语音识别、图像分类等众多领域的突破表明深度学习的有效性。日常生活中以社交网络为代表的拓扑图数据成为数据的主要表现方式。图卷积神经网络提出一种能够作用在图数据上的特殊卷积核,通过层间传播规则得到数据的有效表示以用于后续任务的完成。尽管图卷积神经网络在节点分类、链路预测等下游任务中表现的十分出色,但图卷积神经网络模型仍存在以下问题:(1)图卷积
公共场所的监控视频中经常会出现密集的人群,从中检测出异常行为对保障公共安全有着重大意义。基于视觉技术的异常检测方法作为一种无接触也无需监视对象主动配合的异常检测方案,越来越受到人们的关注。常见的异常检测方法通常利用正常样本训练卷积自动编码器,然后根据训练后的自动编码器中测试样本的重构误差的大小来判断异常。然而,由于自动编码器具有较强的泛化能力,对于异常情况有时仍然能够很好地重构。最近,一些研究人员