基于稀疏学习的嵌入式无监督特征选择

来源 :天津大学 | 被引量 : 0次 | 上传用户:LXM302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能与大数据时代的到来,描述数据的特征数量在许多领域中都呈现爆炸式增长。高维数据集给传统的学习算法的性能产生了不利的影响,要求更多的计算时间和存储需求,且容易导致模型过拟合。特征选择能够从原始特征集合中选择出最具代表性的特征子集,已经被证明是一种有效的数据降维的手段。在现实世界中,由于人工标注费时费力和缺乏先验知识,未标注的数据越来越普及。在不利用数据标签的情况下,无监督特征选择对全面分析未标记的高维数据是至关重要的。目前,稀疏学习思想被广泛应用在无监督特征选择的场景中。这类方法将特征选择过程与学习模型融合为一体,并在特征选择矩阵上施加稀疏正则项。当模型训练完毕,便可以获得符合特征选择语义的稀疏解。然而,现有的方法并不完善,存在一定的局限性。比如未考虑特征空间中的分布规律和特征之间的冗余关系。本文从稀疏学习角度,提出了2种新的无监督特征选择算法。第一个工作是基于隐空间嵌入的稀疏无监督特征选择。受多模态学习的启发,本文将数据的特征空间和伪标签空间分别看做数据的一个模态。通过联合字典学习来获得特征空间和伪标签空间共享的一个潜在的隐空间,它反映了这两个模态一致的分布规律。本文采用谱聚类方法来学习更加理想化的伪标签信息,从而保证隐空间的完备性。为了选择能够同时保持特征空间和伪标签空间的分布信息的特征子集,本文引入一个线性回归模型来最小化特征空间到隐空间的拟合误差。通过在特征选择矩阵上施加2,1范数正则项,与隐空间关联性弱的特征会被丢弃。在不同领域数据集上的聚类结果验证了该算法的优越性。第二个工作是基于冗余最小化项的稀疏无监督特征选择。本文拓展了传统的基于矩阵分解的方法,主要解决了传统方法忽略特征之间存在冗余关系的问题。高度相关的特征通常具有相似的权重或者排名,如果在选择权重较高的特征时不考虑特征之间的相关性,会使得最终结果存在冗余信息。为此,本文定义了一个新的约束项来惩罚相关程度较高的特征,并将它和矩阵分解嵌入到同一个特征选择框架中。之后进一步研究了2,p范数正则项对特征选择模型的影响。对于提出的优化问题,本文设计了一个高效迭代算法。最后,在多种人脸数据集上验证了模型的有效性。
其他文献
制造业的蓬勃发展使得现阶段对数控机床加工精度提出了更高的要求。然而机床使用时间的增加和各零部件的老化、磨损等情况均会导致其加工精度的降低。为了维持和提高数控机床加工精度,亟需一种高效率、低成本的误差建模、检测与辨识方案。本文基于微小角度传感器和L型组合靶标阵列,提出一种三轴机床几何误差的新型辨识方案,完成的主要工作有:1、通过对比现阶段数控机床几何误差的数学建模与误差辨识方法,基于多体系统理论建立
随着机械制造业的快速发展,数控机床在模具制造、电子工程、汽车和航空航天等领域有着广泛的应用。由于具有通用性强、精度高、加工范围大等优点,数控机床已成为一种非常必要的设备。精度在数控机床中起着关键作用,目前也成为了加工自动化领域的一个热点问题。为了提高数控机床直行运动的精度,本文设计一种基于复合特征面阵列的测量系统,并基于该系统辨识机床直行运动过程中的几何误差,主要完成以下工作:1.分析了平面镜和旋
锈蚀是钢结构中一种普遍存在的缺陷。如果不及时采取锈蚀处理措施,可能会引发严重的安全事故并造成经济损失。人工视觉检查是目前最常用的结构锈蚀检测方法。该方法虽然操作简便,但是效率低、主观性强。基于计算机视觉的方法能够自动进行损伤检测,可以显著提高检测效率并给出客观地检测结果。传统的计算机视觉方法需要依赖先验知识设计特征,而深度学习算法能够自动从图像中提取出合适的特征。现有研究主要识别结构是否发生锈蚀,
目前建筑的运行能耗约为全社会商品用能的三分之一,是节能潜力最大的用能领域,也是节能工作的重点,北方城镇冬季集中供热占建筑能耗的21%,且目前管理粗放,难以满足按需供热的要求,集中供热工程势必将向着精细化的方向发展,这也对短期负荷预测的精度提出更高的要求。本文在对热负荷的影响因素及特点进行分析的基础上,结合各影响因素的重要性和可获得性确定了负荷预测模型的输入变量及预处理方法。以承德市某供热系统作为案
当前,我国冬季供暖能耗在社会总能耗中占比较大,供热节能势在必行。对供暖负荷的准确预测可以帮助运维人员提前掌握建筑的用能需求,进行精准调控,从而避免不必要的能源浪费。随着计量装置的普及以及人工智能技术的发展,机器学习技术在建筑物能耗预测方面得到了快速发展。本文以寒冷地区某住宅建筑为例,使用树模型与神经网络模型对供暖负荷进行短期预测与超短期预测,研究了两类在供暖负荷预测中的应用效果。本文首先利用相关性
"十四五"是国家电网公司迈向战略目标的关键五年。而供电所既是公司供电服务的最前沿,又是政策落地的最末端。落实"一体四翼"发展布局,提高供电所基础管理是必然要求。为解决供电所一线人员对上级政策理解不全面、业务流程不熟悉、服务要求落实不精准等一系列问题,国网山东省电力公司东营供电公司(以下简称"东营供电公司")创新搭建市、县、所贯通协同的"五点云讲堂"培训平台,以"上级政策一贯到底,基层需求及时
期刊
当前,基于卷积神经网络的深度学习技术在计算机视觉等多个领域取得极大成功,也是最具代表性、最有效的方法。但是深度学习技术严重依赖于标签准确且类别间数据平衡的大规模数据集。然而,大规模的标签准确的数据是极难获取的,同时真实世界的数据集大多存在类别间样本不平衡的问题。针对计算机视觉领域中的图像分类和人脸识别任务,如何有效利用标签噪声的数据或类别间不平衡的数据训练出理想的深度学习模型是一个亟待解决的难题。
机器学习和数据挖掘中多数数据类标签的缺失,使得聚类任务成为学习过程中的关键任务。聚类的最终目的是揭示数据的隐藏特性,因此对于聚类任务,得到合理的样本关系对的表示至关重要。而对于维度较高的数据的聚类任务,由于其数据密度低,较难从中得到有用的信息。目前常用的解决方法是无监督特征选择和子空间聚类。无监督学习任务中由于数据无类标签,无法直观得到样本关系,此时可通过构建图模型来表示,以挖掘数据信息,构建学习
真实世界中事物是复杂多样的,单一语义无法描述事物蕴含的丰富信息。为了描述事物丰富的语义信息,多标记学习应运而生并广泛应用在多种领域,例如文本分类、场景分析等。多标记分类学习的任务是学习一个模型,该模型为未知实例预测出一组相关标记。标记之间存在某种联系使得多标记学习难度高于多分类学习。为了使模型具有更高准确性和泛化能力,本文从标记独立和标记关联增强两方面对多标记分类展开研究,主要研究工作如下:(1)
稀疏学习由于其简约特性和计算优势而获得了越来越多的关注。稀疏学习问题等价于最优子集选择问题,这是一个NP完全问题。已有的稀疏学习方法大多基于启发式的规则或正则项近似,但这些方法缺乏相应的理论保证,并且难以有效地在精度和稀疏度之间进行权衡。松弛和取舍技术是一种广泛应用的算法设计技术,已被验证了在NP难问题的近似算法设计上极为有效。本文将松弛和取舍技术扩展到稀疏学习问题,提出并设计了一个新的稀疏学习的