面向高维标签不充分数据的主动学习算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:shhgay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从标签样本稀少的海量高维数据中学习是机器学习领域的基础性研究课题。由于高维数据(特征)中存在着大量噪声特征和无关特征,特征选择(Feature Selection)已经成为数据预处理的一个不可或缺的步骤,它致力于从高维特征中筛选出最具有判别力的相关特征同时剔除不相关的噪声特征。当前的特征选择算法总是或多或少忽略了输入数据的局部几何结构一致性判别信息,或未能对特征之间的冗余进行建模,因此有必要设计更高效的特征选择策略。由于标签样本稀少而无标签样本丰富,而且给大量无标签数据手动标注既费时又费力,为此,学者提出主动学习(Active Learning)来缓解训练样本稀缺的问题。主动学习旨在从无标签数据中选择少量且信息量丰富的无标签样本,然后查询它们的真实(Ground Truth)标签进行标注用于下一轮的监督训练,同时最大限度地节约标注成本。由于当前的主动学习普遍存在着“训练样本少”、“采样准则权重固定”、“标签数据和无标签数据分布差异大”等特点,使得主动学习的实际应用受到制约。本文从数据预处理作为切入点,对特征选择和主动学习这两个基本课题展开研究,主要工作包括:(1)提出了一种结合局部几何结构一致性和冗余最小化的无监督特征选择方法。当前的无监督特征选择算法往往忽略输入数据的局部几何结构一致性信息,或未能对特征之间的相似度进行建模导致选择特征冗余。为此,本文整合了两方面的关键判别信息用于特征选择:(a)挖掘了原始高维特征空间和低维特征空间的局部几何结构一致性信息,用于选择相关的判别性特征;(b)采用最大信息系数对特征之间的相似度进行建模,最小化所选择特征子集的冗余。然后将上述两方面的判别信息融入到一个统一的特征选择框架中,用于选择判别性的相关特征,同时剔除无关的冗余特征。进而采用一个高效的优化算法对提出的特征选择框架进行求解,并且该优化算法的收敛性在理论上得到了证明。基于提出的特征选择框架选择的特征在聚类任务上取得了性能提升。(2)提出了一种自适应采样准则权重的批量模式样本选择算法。由于当前批量模式主动学习(Batch Mode Active Learning,BMAL)方法总是为样本采样准则分配固定权重来选择样本,忽略了主动学习过程中样本准则波动这一关键信息,进而导致次优的样本选择。针对这一难点,本文首先构建了样本采样准则,即(不)确定性,代表性和多样性,然后将这些采样准则融入到一个自适应准则权重框架中,来动态调整(不)确定性、代表性以及多样性的重要性以选择最有价值的无标签样本用于学习一个可靠的分类器。与现有方法相比,本文提出的方法选择的样本不仅能促进分类器的学习,而且自适应机制使得提出的算法更适合动态变化的批量模式主动学习环境。(3)提出了一个子模函数对候选样本之间的相似性进行建模,用以改进之前工作提出的自适应权重准则样本选择算法。具体而言,提出的方法包含两个重要阶段。首先,改进的方法采用自适应准则权重算法选择一批有价值的无标签样本;然后,设计了一个子模函数从选定的一批无标签样本中鉴别出一个小批量的多样性的样本子集,进而显式地控制选择样本的冗余。提出的方法采用的自适应样本采样准则重加权机制不但使得样本选择框架更加灵活,而且冗余控制能够显著提升学习模型的鲁棒性。进一步地,将改进后的自适应批量样本选择算法扩展到半监督分类和半监督聚类任务中。实验表明,相较于对比方法,提出的算法在12个基准数据集上取得了当前最佳的分类和聚类性能。(4)提出了卷积神经网络场景下的不确定性和代表性准则用于主动深度图像分类。当前的大多深度主动学习方法倾向于只选择不确定的图像用于训练神经网络,而且主动学习方法易于受到标记数据和未标记数据分布差异的影响。针对上述局限,本文提出探索深度主动学习中无标签样本的不确定性和代表性信息,旨在训练一个可靠的神经网络用于图像分类。通过最大化两个额外的对抗分类器的预测结果来学习不确定性,同时标记数据和未标记数据的特征分布也尽可能对齐。然后,采用(n+1)-tuplet损失来训练神经网络,使得学习到的特征能更准确地预测无标签图像的伪标签和类簇质心,从而选择靠紧各个类簇中心的代表性样本用于主动监督。在3个图像分类数据集上的大量实验表明,本文提出的方法实现了最优的分类性能。
其他文献
大量的研究结果表明三维钙钛矿的稳定性较差,在水汽、光照和加热等因素作用下均能导致材料的分解。为了提高杂化钙钛矿材料的稳定性,在2014年,Karunadasa等人首次将大尺寸有机阳离子引入到杂化钙钛矿结构中制备出了高稳定性的层状钙钛矿PEA2MA2Pb3I10(52%RH,40天)。但是,大尺寸有机阳离子的引入会与无机八面体层作用形成量子阱结构,使层状钙钛矿材料具有比三维对应物更强的介电限域效应。
学位
核能具有清洁、高效且无温室气体排放的优点,被认为是最有潜力替代传统化石燃料的优质能源。然而,核能的广泛应用可能会导致放射性污染,从而限制其发展。放射性碘是放射性核素的一种,排放到环境中后,将会对生物与生态环境造成严重威胁。因此,核能利用过程中,有效处理泄漏的放射性碘对于其可持续性发展具有重要意义。本文针对目前银基、铜基吸附剂用于碘离子(I-)去除时所存在的不足,构建了多种低廉高效的多孔材料,并以与
学位
随着环保意识的提升,废弃塑料的环境污染现状越来越获得人们的重视。伴随着爆发性增长的产量,塑料垃圾中以塑化剂为代表的化学物质会通过泄漏等方式污染周边环境。传统的邻苯二甲酸酯类塑化剂(PAEs)具有潜在的环境污染和毒性,其使用范围和产量逐渐被限制使用并退出市场。为了满足市场需求,柠檬酸酯(Citric acid esters,CAEs)作为一种“绿色”替代性塑化剂被广泛应用于各类商业产品中。然而随着深
学位
纳米颗粒广泛应用于材料设计、材料合成、催化、能量存储和转换以及燃烧应用等研究领域,其氧化机理的研究对理解、预测和调控材料特性至关重要。纳米含能材料燃烧涉及复杂和极快的物理化学过程,其机理尚未得到很好阐释。本文从原子尺度出发研究铝基纳米颗粒在燃烧中形态演化、相变机制、基元反应等热力学和动力学行为,揭示铝基纳米颗粒的氧化机理和形貌演变的内在机制。运用分子动力学模拟研究纳米铝与含氧气体的反应机制、改性的
学位
近年来,恐怖袭击以及爆炸事件频繁发生,这严重影响了经济发展,对人民生命财产安全造成了重大损失。防爆安全存在的弊端是目前全世界关心的重点问题。爆炸往往伴随着破片和冲击波,针对两者联合作用下的防护一直都是重要的探究内容。传统防护结构有重量大、运输难等缺点。泡沫铝材料被认为是一种有着均匀分布在铝或铝合金基体中大量孔洞的多功能新型材料,存在轻质量、耐疲劳、高比强度等多个优点。泡沫铝材料与夹层结构的结合为研
学位
非共价相互作用,尤其是氢键和π-π相互作用,能够显著地影响含能材料的能量水平和安全性能。本论文运用密度泛函理论(DFT)、分子动力学(MD)及过渡态理论(TST),系统地研究了HNS(2,2’,4,4’,6,6’-六硝基芪)基共晶的几何结构、电子结构和分子间相互作用随非含能共晶组分的改变而发生的变化,探索了不同类型非共价相互作用对它们撞击感度的影响规律;基于团簇分析方法,研究了α-HMX(α-1,
学位
图像分割是指利用颜色、纹理、形状等不同特征将图像划分为若干个互不相交的区域,使得这些特征在同一区域内具有一致性,而在不同区域间具有互异性。图像分割是计算机视觉的基础任务。根据是否有用户参与可以将图像分割分为自动图像分割与交互式图像分割。自动图像分割在某些特定应用场景下得到的分割结果不一定满足用户的需求。而通过简单的用户交互(例如点击、涂鸦线以及边界框等),用户可以对分割过程进行干预与控制,以获得满
学位
脉冲星(Pulsar)是世界上各大射电、高能望远镜主要观测和研究的重要天体之一。目前已有3000多颗脉冲星被发现和研究。但是脉冲星的辐射机制一直是个问题。对于一些化学奇异星(Chemically peculiar stars,CP),例如磁化学奇异星(magnetic chemically peculiar stars,缩写为CP2)的射电辐射表现出与脉冲星相似的观测特征。而这类恒星的射电辐射机制
学位
在海量的视觉数据中,人体是最常见和最重要的目标之一,准确地分析人体目标是理解这些以人为中心视觉数据的基础。人体语义分割是一项具有挑战的人体分析任务,属于通用语义分割的子任务,旨在将人体分割成若干个语义一致的连续区域。人体语义分割的结果不但直接提供了人体结构信息,还可以用于辅助人体相关的下游任务,例如人体姿态估计和行人身份再识别等。近年来,基于卷积神经网络的深度学习方法逐渐兴起,促进了人体语义分割技
学位
文章采用0.13μm GaAs PHEMT工艺技术设计了一款MMIC低噪声放大器(LNA),该低噪声放大器工作频段为13~17 GHz,采用了双电源供电的两级放大结构,偏置电路采用电感加并联电容的滤波结构来隔离直流信号与射频信号,在第二级放大器的栅极和漏极之间引入负反馈网络来增加电路的稳定性、拓展放大器的带宽和改善增益平坦度。仿真结果表明:在13~17GHz频带范围内,低噪声放大器的噪声系数小于1
期刊