基于数据相关性挖掘的标记分布学习算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:xiawei0018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,如何解决标记多义性问题已成为机器学习和数据挖掘领域的一个热门研究点。在传统的机器学习框架中,比较成熟的标记多义性学习范式是单标记学习和多标记学习。前者假设一个示例仅仅只有一个标记,后者认为一个示例可以和多个标记相关。因此,相比于单标记学习,多标记学习可以解决更多的标记多义性问题。然而,无论是单标记学习还是多标记学习都只能解决“哪些标记与示例相关”的问题,无法回答“每个标记是怎样对示例进行描述的”。针对这个问题,学者们提出了标记分布学习范式。标记分布学习范式能够直接学习每个标记对特定示例的重要性,适用于解决更复杂的标记多义性问题。并且,为了提升学习性能,如何挖掘并利用数据之中的相关性是标记分布学习的一个核心内容。基于此,本文通过挖掘并利用样本相关性和标记相关性,对标记分布学习方法展开进一步研究。另外,本文同样针对数据不完备问题进行相关探讨。第一,本文提出了一种基于全局和局部标记相关性的标记分布学习算法。现存的标记分布学习方法要么只利用全局标记相关性来提升算法的性能,要么只利用局部标记相关性来提升算法性能。实际应用中,标记间的相关性是复杂的,一种更合理的方式是同时考虑全局和局部的标记相关性。在完整的标记分布空间中,考虑到一个标记可以由其相关标记的线性组合来表示,本文通过约束矩阵的低秩性来近似获取标记的全局相关性。另外,为了学习局部标记相关性,本文基于不同样本的特征分布,将样本聚类成不同的簇。对于同一簇内的样本,本文认为其共享标记的相关性;对于不同簇的样本,所共享的标记相关性也是不同的。实验结果表明,同时利用标记的全局和局部相关性,可以更好地提升算法性能。第二,本文提出了一种基于特定特征选择和共同特征选择的标记分布学习算法。现有的标记分布学习方法都存在一个相同的问题,即假设所有的特征被所有的标记所共享。这个假设是粗略的、笼统的。实际上,有些标记只被部分特征所决定。为了更精确地描述特征与标记间的关系,本文为每一个标记都学习其相关特征。此外,为了避免共同信息丢失,本文还为全部标记学习其共同的相关特征。更进一步地,为了提升算法性能,本文还直接在标记分布的输出分布上学习标记的相关性。实验结果表明,本文所提算法能更好地学习特征与标记间的关系,从而得到更好的性能。第三,本文提出了一种基于矩阵补全技术的弱监督标记分布学习算法。现有的标记分布学习算法基本都建立在完备的数据集上,并且模型在训练过程中依赖强健的监督信息。然而,在实际应用中,数据集的监督信息往往是不完备的、不准确的。值得注意的是,当标记分布大量缺失时,从测试数据中提取的信息对算法性能的提升是有帮助的。考虑到这一点,本文提出了一个基于样本相关性的直推式矩阵补全标记分布学习算法,该算法可以在模型训练过程中引入测试数据的分布信息。此外,为了进一步提取数据潜在信息,本文还利用流形正则化来学习样本相关性以提高算法性能。已知两个样本越相似,其标记分布也会足够接近。在监督信息缺失的情况下,利用样本相关性可以在一定程度上提高算法补全标记分布的准确性。在多个真实数据集上的弱监督实验结果验证了本文所提算法的有效性。
其他文献
基于深度学习的小样本学习希望深度网络在含有大量标注的基本类样本上预训练后,使得网络在遇到只有少量标注的新类别样本时,能够实现对这些新类别的快速泛化识别。当前实现小样本学习的一个主流方法是元学习(Meta-Learning)。然而,基于元学习的方法不仅需要大量的训练时间和计算资源,而且性能也无法令人满意。近期,基于传统监督表示学习的小样本学习方法被证明能够取得和元学习方法相媲美的结果,且拥有模型结构
随着信息化技术在传统制造业的快速发展与应用,对数据资源合理利用的需求日益增长。离散制造设备作为数据资源的来源,在离散制造的发展方向中扮演着重要的角色,因此研究基于离散制造设备的物联系统,实现对数据的利用与整合具有重要的意义。本文主要以五洋纺机有限公司数字工厂为应用场景,以FANUC-0i/30i和海德汉i TNC530系统的机床与加工中心为对象进行了研究。首先,根据离散制造设备物联系统对数据实时预
本文是以C形龙门三平动并联机构和C-A型双摆头构成的五轴联动混联机床为研究对象,针对该机床的运动学分析、轨迹插补、速度控制及冗余滑块位置规划等关键技术进行了重点研究。主要内容如下:首先进行了机床运动学分析。根据五轴联动混联机床的结构特点和运动关系,推导出机床的位置反解方程、位置正解表达式、并联机构的速度逆雅克比矩阵及加速度映射关系,简单解释了机构正解的多解性及定解方法。其次,针对混联机床的运动关系
本文以定深电液伺服控制系统的应用为背景,以优化系统在复杂工作环境下的稳定性为目标,重点针对定深电液伺服系统内部参数的摄动、不确定性,以及控制系统对外部负载扰动的抗干扰性问题,开展了基于神经网络的PID控制策略以及滑模变结构控制策略研究。本文首先分析了定深电液伺服系统的结构及工作原理,对其中重要的机械元件进行选型介绍。在此基础上分析了系统的动态特性并构建其数学模型。此外还将对定深电液伺服系统控制性能
随着空中和地面移动机器人的深入研究,促进了具有多种运动能力的多栖机器人的发展。陆空两栖机器人作为多栖机器人的一个重要分支具有空中和地面两种运动能力。陆空两栖机器人自主运动时,需要为机器人规划出一条从起点到目标点无碰撞的三维路径。同时在运动过程中,陆空两栖机器人需要根据当前的环境信息自主决策选择较优的运动模式。因此,以复杂环境下陆空两栖机器人为研究对象,开展了针对环境建模、路径规划算法以及切换决策算
目前,虚拟演播室已经成为当下节目制作的主流技术,而摄影机器人作为虚拟演播室的主要组成部分之一,也成为了机器人项目中的热门研究对象。本文针对虚拟演播室摄影机器人进行研究,对摄影机器人进行了结构设计、仿真分析、实验优化等方面的研究。在结构设计方面,根据设计方案对摄影机器人各个关键部件进行设计。针对电控云台的设计要求,完成了云台的结构设计,并进行了内部减速器的设计及选型;基于平行四边形原理对摇臂部件进行
磁电复合材料作为一种新型智能材料,具备磁电转换能力,能够直接感知外部磁场,在磁电传感器与换能器领域具有广阔的应用前景。非晶态磁致伸缩合金在数十奥斯特的磁场作用下就会发生饱和磁化,产生非线性磁致伸缩效应,从而非晶态合金/压电复合材料在较高幅度的激励磁场作用下产生非线性磁电效应。现有研究表明:通过解调奇次谐波输出,可实现静态/低频动态磁场的测量,且无需另外施加偏置磁场。本文从理论和实验两个方面对非晶态
本课题来源于企事业委托项目,负责研发虚拟演播室摄影机器人的视觉模块,主要实现摄影机器人对目标主持人的识别与跟踪的系统开发,其核心模块主要有人脸识别模块、深度定位模块与目标跟踪模块。本文首先对虚拟演播室下摄影机器人的工作空间需求进行分析,提出了一种轨道式摄影机器人,并对其结构与控制系统进行了详细介绍。本文对该摄影机器人进行了运动学分析,并对其进行了逆运动学求解。虚拟演播室下,除主持人固定外,其他嘉宾
滚珠丝杠副作为数控机床的核心传动部件,其性能直接影响数控机床的定位与传动精度。经过多年可靠性工程的研究,国内滚珠丝杠副的综合性能已经获得了极大的提升。而作为可靠性工程的重要组成部分,滚珠丝杠副的可靠性增长承担着设计加工优化改良,现场使用规范操作的任务,而目前对这方面还鲜有研究。本文依托国家科技重大专项,旨在建立与验证一个适用于不同型号丝杠的可靠性增长体系与评估方法。本文首先建立了滚珠丝杠副可靠性增
随着摄像头的不断更新换代,图像的分辨率越来越高,所占空间也越来越大,为图像的存储和传输带来了巨大的挑战。除了考虑增加存储空间、升级带宽外,还应该从图像本身出发,研究图像压缩技术,在保证图像质量的情况下,尽量减少存储空间。基于深度学习的图像压缩方法近几年发展迅速,其中基于卷积神经网络的方法已经成为主流的压缩方法。该类方法主要分为四部分:编码器、量化器、熵编码器以及解码器。编码器采用卷积层提取图像特征