适用于偏标记学习的概率传播算法

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:simonhill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,偏标记学习作为一类重要的弱监督学习框架,在目标检测和临床医学等多个邻域得到了广泛关注。在偏标签学习框架中,一个样本对应于一个候选标签集合,然而在候选标签集合中有且仅有一个标签是真实标签,由于训练数据集的真实标签不可直接获取,经典的监督学习方法无法直接用于求解偏标记学习问题。一般而言,为了设计有效的偏标记学习算法,一种直观的思路是对偏标记对象的候选标记集合中的标签进行消歧,然而现有的经典偏标记消歧方法从偏标记数据集学得的模型容易受到噪声标签的误导。虽然近年来改进的偏标记学习通过引入邻域权重图来降低噪声标签带来的负面影响,然而其仍然存在两个主要问题。一方面,其邻域权重图中各样本之间的相关性仍然存在着一定的错误信息,在最终传递信息的过程中,模型会放大化错误信息所带来的影响。另一方面,改进的偏标记消歧方法往往对异常数据过于敏感,导致模型十分不稳定,本文的主要研究工作如下:1.由于输入空间样本之间的相关性,最终会影响每个样本之间的候选标签之间的信息分享过程,因此输入空间样本之间的相关性所带来的负面信息不能轻易忽视。本文基于此问题,在相关性的计算方式中加入了候选标签信息,过滤掉分享过程中的带有错误信息的近邻样本,通过这种方式改善了分享过程中近邻样本信息的准确性,从而提高信息传播的效率和可信度。2.为了进一步加强输入到输出的映射关系,并且有效扩大候选标签集合中标签之间的差异性,本文基于流形假设构建了一个双凸目标函数,其利用最大熵函数的特性去提高候选标签集合中标签之间的差异性,并且在输入特征向量和真实标签之间构建了一个线性映射关系。本文在4个人工改造的UCI偏标记数据集和5个公开并真实存在的偏标记数据集进行大量实验来验证算法在自我纠错与预测新样本两个主要任务的有效性和优越性,同时佐证了算法的收敛性与参数的稳定性。
其他文献
基于位置的服务在运行过程中记录了大量用户移动轨迹数据,这些数据不仅包括了用户移动的位置和时间,还包含了丰富的用户活动产生的语义信息,具有时空依赖性与语义性。随着移
自然界中存在各种各样的颗粒系统,例如,火山爆发时,大量火山灰颗粒被气流带到大气层中,并随后在气流作用下扩散运动;沙尘暴的发生,源于干旱、沙漠地区的地表的大量沙尘颗粒在
本文试图论述柏拉图《蒂迈欧篇》中的“容器”(Receptacle)概念,“容器”作为柏拉图的第三种东西(The third kind),使理念(模型)的影像呈现于其中,同时它被比喻为“母亲”而生成物理世界中的可感事物。“容器”在创造宇宙的第二个原因——必然性——中具有重要的地位,但“容器”却在文本中没有确定的定义。柏拉图认为它逃脱逻各斯的捕捉,它需要靠不纯粹的理智(bastard reasonin
传统的人工监测方式和红外感应方式的人流密度监控系统由于人力的巨大成本和技术精度低等种种弊端无法应用于更多场景已被市场逐渐淘汰。基于视频处理的人流密度监控系统虽然
随着脑机接口技术的发展,基于脑电的情绪识别受到了广大研究者的青睐和重视。脑电情绪识别的研究为人工智能领域的发展注入了新的活力。本文针对脑电信号中眼电伪迹去除和模
花生是国际广泛栽培种植的油料作物和经济作物,是油脂和蛋白质的主要来源。近年来,伴随人们物质条件的不断丰富,花生油的需求比重持续加大,花生产业蒸蒸日上。人们对健康重视程度的加强,也要求花生品种既要有高的含油量,又要有好的品质,脂肪酸则是影响花生品质和油脂营养的重要成分。因此如何增加花生油中有益脂肪酸的比重,是全世界花生品种改良的重点。对花生含油量、蛋白质和脂肪酸等品质性状的相关QTL加以分析,可作为
合理分布供电系统中的无功功率是一种保证系统安全、可靠以及经济运行的前提条件,同时,合理的分布无功功率也可以有效的降低系统有功功率损耗以及提升电压质量。因此,本文为
由于科技发展迅速,以及手机的普及,移动摄像头数量也随之剧增。通常大多数人都会采用简便快捷的拍照的方式对文档进行记录,因此会产生大量随意拍摄的文档图像。该类文档图像
伴随着一次次工业革命,中国制造业得到高速的发展,PCB行业作为电子信息产品制造的基础产业,在需求和产量大幅度提升的基础上,其内部的元件也相应的复杂化和多样化。一般的标
癌症作为全球高发病率和死亡率的疾病,亟需高效的诊断方法。癌症早期诊断一般需要参照肿瘤标志物的含量,因此,肿瘤标志物的检测对于癌症排查至关重要。近年来,涌现出许多检测