【摘 要】
:
在现实世界中,许多人在互联网上分享照片、文本等不同种类的信息,这些数据可以被标记多个标签。利用好这些数据,寻找到可用标签和数据之间的关系,可以指导人们更好地学习、工作。传统的多标签学习任务就是学习一个有效的模型,为未知数据赋予多个标签。通常,在训练集中,一个样本标注多个标签,并且所有标注的标签都是精确的。然而,精准标注大规模样本是困难的,一般在标注时,由于疏忽,标注者往往会将一些样本无关的标签分配
论文部分内容阅读
在现实世界中,许多人在互联网上分享照片、文本等不同种类的信息,这些数据可以被标记多个标签。利用好这些数据,寻找到可用标签和数据之间的关系,可以指导人们更好地学习、工作。传统的多标签学习任务就是学习一个有效的模型,为未知数据赋予多个标签。通常,在训练集中,一个样本标注多个标签,并且所有标注的标签都是精确的。然而,精准标注大规模样本是困难的,一般在标注时,由于疏忽,标注者往往会将一些样本无关的标签分配给样本,所以导致在真实场景中,一个多标签学习样本往往带有噪声标签,这样的情境称为偏多标签学习。传统的多标签学习方法和偏标签学习方法很难有效地解决偏多标签学习问题,其难点在于如何区分样本的真实标签和噪声标签,从而进行有效地学习。基于此,本文深入研究了偏多标签学习问题,针对现有方法存在的问题,提出了两种不同的偏多标签学习方法。(1)现有的方法大多数只注重于标签的消歧,而未使用标签关系进行建模,但是标签关系对于多标签样本是一个十分重要的信息,忽略标签关系导致这些方法性能是有限的。另一些方法虽然考虑了标签关系,但是对于偏多标签学习来说,噪声标签往往会使得真实的标签关系被破坏,这样错误的标签关系参与模型构造,导致模型性能下降。基于此,本文提出了基于稀疏非对称标签相关性的偏多标签学习,可以获得可靠的标签置信度。具体来说,本文将非对称的标签关系矩阵限制为稀疏,稀疏性使得模型得到真实的标签关系矩阵,然后根据观测的标签矩阵和标签关系矩阵得到标签置信度,同时将特征的线性投影函数约束为低秩,建立其与标签置信度间的联系,最后进行迭代优化。(2)在偏多标签学习中,现有的大多数方法仅仅将冗余的标签看做是噪声标签,而忽略了特征也可能包含冗余信息的问题。此外,现有的很多偏多标签学习方法利用的一致性损失忽略了判别特征的选择,由于噪声的影响,特征空间中错误的流形结构,会影响标签空间的学习,从而影响模型的性能。为了缓解上述问题,本文提出了一种基于耦合字典学习和公共流形的偏多标签学习方法。具体来说,字典学习可以提取出特征空间中具有的判别性信息,通过关联和更新特征空间和标签空间的字典,寻找耦合空间的公共结构来融合不同空间的信息,为特征和标签空间生成公共编码表示,以执行特征和标签的匹配,建立特征和标签空间的关系。同时,字典学习可以隐式地捕捉到特征相关性和标签相关性;并且考虑到标签和特征中都会有噪声的存在,在学习公共编码的过程中,同时学习特征空间和标签空间各自的噪声信息,进一步加强了公共编码的提取。此外,在偏多标签学习任务中,由于相对于公共信息来说,噪声信息往往在占有比较少的比例,所以本文约束噪声信息是稀疏的。另一方面,特征空间的噪声信息不应该影响标签空间的学习,所以本文保持了标签空间和特征空间具有公共流形表示,以提高学习性能,于是本文提出了新的一致性损失。
其他文献
人手的姿势复杂多变,极小的手势形变就包含了丰富的信息,并且同一个人做出同一种手势,动作也不尽相同,这些都加大了手势检测的难度。手势识别是人机交互的关键技术,并且在很多的领域都有重要的应用。近年来基于深度学习的手势检测与识别技术发展迅猛,但是由于手势检测与识别容易受到光线变化和手势阴影等影响,因此面临着巨大的挑战。本文针对手势检测和识别任务的问题和挑战展开了如下研究:(1)为了解决传统方法难以应对手
在车载网络系统中,信息传播离不开车辆与基础设施之间的交互。然而,交互过程常常受到恶意第三方的破坏,严重时可能威胁到驾驶者的生命安全,因此保护车辆相关信息以实现安全、高效的交互非常重要。信任机构通常在车载网络中扮演关键角色,需要与多个车辆进行交互。当信任机构向多辆车发送相同的消息时,需要与每辆车协商并发送不同的密文,存在冗余加密问题。尤其是在传输大量消息时,冗余加密问题会更加严重。同时,由于冗余操作
随着科技的发展,人们获取和存储照片、视频的成本变得越来越低,而照片与视频中的人脸信息往往是人们关注的重点之一。因此,探索一种有效且高效地处理海量人脸信息的算法模型具有十分重要的研究价值和意义。人脸聚类是一种挖掘未标记人脸数据的方法。然而,由于人脸数据的规模非常庞大且特征分布十分复杂,导致一些传统聚类分析算法在处理这些真实人脸数据时表现较差。最近的研究通过使用图卷积网络(GCNs,Graph Con
显著目标检测是计算机视觉领域中的一个重要研究课题,旨在研究人类视觉注意机制,利用算法模拟注意机制来检测图像中的显著目标。显著目标检测不仅推动了机器学习和人工智能等领域的理论研究,也成为很多工程应用如无人驾驶、人机交互中重要的解决方案。然而在一些特殊场景下,如前景和背景相似、复杂场景等,从可见光图像中准确地分割出显著目标非常困难,因此当下很多研究者将其他模态的信息引入显著目标检测任务,即多模态显著目
随着越来越多的移动设备走进人们的生活,其产生的数据每年都在急剧地增长。数据聚合作为互联网中处理数据并进行决策性计算一项重要的技术,其通过云服务器对用户数据进行收集和分析,从而做出智能决策。然而,数据的收集可能涉及到用户隐私的问题。虽然目前已提出不少隐私保护数据聚合方案,但大多数方案采用了公钥同态密码机制,此类方案不仅计算成本高,而且资源开销也大。此外,由于移动设备质量的差异,不同用户提供的数据存在
逻辑回归是机器学习中一种基本的二分类方法,在各种现实场景中有着广泛的应用。实践中,为了获得更好的分类效果,通常需要从多个来源收集大量样本来进行模型训练。这不可避免地导致训练样本中所包含的个人隐私信息的泄漏。针对这个问题,越来越多的研究开始致力于设计能够实现隐私保护的逻辑回归训练方案。目前,一些工作给出了适用于不同数据集分布场景的方案,使用这些方案可以在一定程度上保护训练过程中用户数据的隐私性。然而
异常检测旨在研究如何发现数据中不符合预期正常行为的模式和对象。通过对不同领域中异常模式或对象的分析和研究,有助于深入理解该领域的正常行为,及时发现其中的异常行为和模式,具有重要的研究意义和广泛的应用价值。在实际应用中,由于人工标注样本标签的代价高昂或难度较大,使得人们需要处理的对象数据往往是只有少量独立类标签或约束信息的半监督数据形式。为此,基于半监督学习的数据挖掘方法受到越来越多的关注。如何利用
聚类是机器学习中的一个重要而基础的技术,是分析和处理多变量数据的重要方法,被得到广泛应用。但是单一的聚类算法无法处理所有数据,因此存在稳定性和鲁棒性的问题。为了解决这个问题,聚类集成方法应运而生。聚类集成通过集成多个弱的基聚类结果,得到一个更鲁棒,更稳定的聚类结果。虽然聚类集成已经取得了良好的效果,但是传统的聚类集成算法通常采用较弱的基聚类算法,容易导致基聚类结果不可靠。而且已有的算法往往将各个基
智能交通时代,通过摄像头监控车辆动态并进行监督已经是必不可少的车辆管理方式,摄像头监管车辆的一项重要技术就是车牌检测识别技术,它可以快速便捷的通过机动车辆车前车后的标准车牌确认车辆身份。但是对于一些大型车辆,监控视角受限以及标准车牌的磨损严重、污渍附着等问题使得摄像头无法拍摄到合适的标准车牌,车牌的检测识别技术难以获得准确的识别结果,于是本文通过研究非标车牌的检测识别来解决此问题。非标车牌与标准车
网络作为一种非欧式数据结构在现实世界中非常常见,例如表示论文之间引用关系的引文网络,表征用户之间的关系的社交网络,生物学中蛋白质分子网络等。近些年,深度学习由于其优异的特征提取性能成为了热门研究课题,而基于图深度神经网络的网络表示学习方法也逐渐成为图分析研究领域的主流方法。其中基于图自编码器的无监督网络表示学习方法是非常一种经典且常见的方法。当前基于图自编码器的方法通常只有一个解码器和一个编码器,