多标记学习中标记间相关性的获取及应用研究

来源 :华北电力大学(北京) | 被引量 : 0次 | 上传用户:qq11qq11qq11qq11qq11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的深入发展和科技的飞速进步,传统监督学习已经无法满足日益复杂的学习问题和数据形式。在现实生活场景中,常需要基于同一组输入变量训练并预测多个输出变量。为应对上述学习任务,时下备受关注的多标记分类学习应运而生。由于多标记数据含多个标记变量,输出空间的急剧膨胀导致了如下挑战:一方面,受限于存储空间和时间开销等因素,为每个可能的标记变量子集训练一个学习器显然是不现实的;另一方面,标记的激增造成获取被标记数据的成本增高,进而导致具有真实输出的多标记训练样本严重缺失。为提升多标记学习算法的预测精度、学习效率和泛化能力等,标记间相关性的度量与利用成为重要的突破口。但现存的关于标记间相关性获取的研究常于依赖外部知识,或通过统计输出空间中标记共现与互斥的频率以评估标记之间的关联程度。上述成果仅着眼于输出空间中各标记间的相互作用,并没能给出完善且富有说服力的理论框架以定性且定量地描述输出空间中的特征变量对标记及标记间相关性的影响。与此同时,也没能为如何运用标记间相关性提供较为有效的解决方案。为应对上述难点,本课题得到如下创新点以期为完善多标记学习的研究工作提供全新的思路和可行性方案:(1)针对具有离散型输入空间的多标记数据,提取关于标记的关键特征元素。通过比对不同标记的关键特征元素,计算标记关联矩阵以刻画输入空间中特征变量对标记及标记间相关性的影响。进而,输出空间中标记变量被划分为若干个互不相交的相关性标记子集,其内部标记之间具有较强相关性。在保证原输入空间对相关性标记子集辨识能力不变的前提下,设计面向多标记数据的特征选择算法CLSF。对具有强关联度的标记,算法CLSF可以删除对其冗余或干扰的特征,并提取强描述性特征,从而实现对输入空间和输出空间的双向降维。(2)一方面为避免在离散输入数据时丢失蕴含于特征变量中的辨识性信息,我们致力于完整保留数据中所含的全部描述性信息;另一方面,为降低基于关键特征元素的标记间相关性的计算复杂度,我们试图构造更为合理的度量以刻画特征对标记的二元重要性。因此,针对具有数值型输入的多标记数据,提取关于标记正、负局部类的关键特征。基于不同局部类对应关键特征的重合度,构造局部标记间相关性和全局标记关联矩阵。依据不同的相关性判断参数α,标记集被划分为若干个不重叠的关联标记子集。针对关联标记子集,设计了能够凸显标记局部特性的局部得分函数,以整合具有强相关性的局部类。最后,提出了多标记局部特征选择算法LRFS-α,对关联标记子集进行更具有针对性的局部特征选择,以强化多标记特征选择的学习和预测性能。(3)为避免在提取特征对标记二元重要性时造成描述性信息的损耗,我们旨在度量特征对于标记的关键程度;另外,为降低拟合强相关标记时造成标记间相关性信息的丢失,我们试图将标记关联矩阵直接用于多标记分类中。因此,为明确地量化输入空间中所含全部特征变量对输出空间中任意标记的鉴别能力,定义了关于标记的特征分布。结合不同的聚合策略,给出基于特征分布的标记间相关性的形式化概念与度量函数。进一步,构造基于特征分布的标记关联矩阵,从而较为全面和客观地反映输出空间中哪些标记之间具有强相关性,哪些标记之间关联性较弱甚至无关联。最后提出了基于标记关联矩阵的多标记分类器FL-MLC,以调整不同标记对应的预测系数之间的距离分布。(4)为解决被标记的多输出数据稀缺及数据异构,标记间相关性被推广应用于更为复杂且更具实际应用价值的场景中,即具有多输出回归任务的半监督学习。针对输出空间中的不同变量,首先获取辅助域(即源域)中的模糊规则,以尽量多的保持各输出的特性并抓取输出间的共性。在同构情境下,基于辅助数据与当前数据(即目标域)之间的相似性和差异性,算法FMOT通过改变并转换从源域中积累的模糊规则,以应对目标域中全新但相似的回归学习任务,从而解决被标记数据严重短缺的难题。在此基础之上,通过学习一个全新且公共的潜在特征空间,以对齐源域与目标域的输入空间,使算法FMOT能够适用于更为复杂的学习情境,即论域间异构。针对不同类型的带有多个输出的高维数据,本课题建立了较为完善的理论框架,以度量特征对标记的重要度。进而,基于重要度的标记关联矩阵被应用到多标记特征选择和分类中。最后,将标记间相关性推广运用至真实的应用场景中。相较于现有的多个多标记分类算法、多标记特征选择算法、多输出回归算法和迁移学习算法,上述所提算法在多个真实多标记数据和多输出数据中取得良好的实验效果。
其他文献
当今世界各国之间的经济往来愈发密切,尤其是处于全球经济一体化趋势下,世界各国电子商务及物流产业都在发展中获得了技术及动力支持,实现了转型升级。我国的跨境电商也在增速发展,形成了对国家经济全面发展的助推力,在电子商务运行中,必然需要物流产业的同步协调,跨境物流是跨境电商持续完善及发展的必要保障。基于此,应以产业融合视角为切入点,加快推动跨境电商及物流产业链的融合发展。
在这个经济迅速增长的时代,我国的冶金自动化技术发展的越来越快,技术在不断突破,冶金需求也在不断地增长,对于一些冶金企业来说前景大好。但是,我国冶金自动化技术的发展仍然存在问题,制约了工业的发展。对此,冶金企业必须加强自动化技术的开发和应用,为企业发展打下坚实的基础。
新型冠状病毒肺炎(COVID-19)是一种急性呼吸道传染病,由严重急性呼吸综合征冠状病毒2(SARS-CoV-2)感染所引发。其传播迅速、致病性强,以发热、乏力、干咳为主要表现。临床上以中医理论为指导,发挥中医药整体调节的优势,联合现代医学先进诊疗手段,对新冠肺炎治疗起到了积极的作用。肠道微生态平衡是机体内环境稳定的重要保障因素,有研究表明,新冠肺炎的发生发展与肠道微生态紊乱及机体免疫功能下降息息
为了满足测量与仪器领域的重大发展的需求,本文研究的主题受到了广大科学家和研究人员的高度重视。现代系统的设计必须紧随发展的步伐,并找到新的算法,具有低成本的设计,低成本的材料和高性能以适应不同的应用,这是一个重要和热点问题。本文着重于调整激光在通用系统以及作为特例的燃烧系统的光路。在这样的系统,我们需要纠正光路的角度偏差。本文的技术是基于高性能控制的设计模型与可接受的误差。这类系统是非线性系统,所以
批次过程在现代智能制造工业中占据重要地位,用于生产具有高附加值的精细化产品,其产品质量在很大程度上取决于控制系统跟踪参考轨迹的精度。批次过程在有限时间区间内重复运行,而迭代学习控制能够通过学习历史运行数据修正当前控制输入,达到沿批次不断提高跟踪精度的目的,因而成为当今批次过程控制的主流方法。迭代学习控制是典型的一维控制算法,控制律只沿迭代轴更新,在时域上采用开环控制结构。因此,迭代学习控制不具备实
自抗扰控制(Active disturbance rejection control,ADRC)因其对系统“总扰动”的自发估计和抑制能力使其逐渐受到越来越多研究者的关注,同时由于其在工业领域的成功应用展现了其广泛的应用前景,但其理论研究还有待进一步加强。本文从线性自抗扰控制(Linear ADRC,LADRC)设计、分析及参数整定这一课题出发,主要对二阶自抗扰控制参数整定、针对延迟系统改进自抗扰控
软件度量数据库的复杂性使得缺陷数据集和无缺陷数据集模块难以区分,而从数据模型的发展过程来看,软件度量数据集对于度量数据的预处理至关重要,旨在提高机器预测模型数据集精度和性能。在计算领域,研究人员的关注主要集中在软件数据集模型中存在的缺陷数量,由于易变形数据集与准确性有着密不可分的关系,研究人员的主要目的是快速识别和纠正软件中存在的易变形缺陷。目前,世界上最大的科技公司也有自己的一致性注册方案,解决
梯级水库作为开发与利用水能资源这一清洁可再生能源的重要工程措施,通过对一段时期内入库径流实施有计划调蓄,梯级水库可实现洪旱灾害的防范抵御、水电企业的效益增长、电网的安全稳定运行、生态环境的保护修复等多方面重大任务。并且近年来我国出台了一系列清洁能源消纳的鼓励政策,水能资源支持的水电行业已成为我国能源结构转变的关键。目前随着乌江、雅砻江、金沙江等十三大水电基地建设的逐步完成,我国各个流域内梯级水库系
布里渊光时域反射(BOTDR)分布式光纤传感系统具有结构简单和单端测量等优点,能够实现温度和应变的大范围、同时测量,在大型建筑和设备的健康状态监测和故障诊断领域展现出独特的优势并得到了越来越多的关注和研究。然而,由于BOTDR传感系统性能指标相互制约,使其仍无法满足很多应用场合中对测量精度和测量时间的要求。针对BOTDR传感系统的性能优化问题,本文在深入研究BOTDR传感系统特性的基础上,分析系统
目标检测是计算机视觉领域的一个基本且重要的研究方向。其主要目的是识别图像中的所有物体并定位它们的位置。作为图像理解和计算机视觉的基石,目标检测成为解决高级复杂视觉任务的基础解决方案。近年来,随着深度学习的飞速发展,目标检测技术已经取得了巨大的突破。目前,目标检测已广泛应用于许多领域,例如:图像分割、场景理解、目标跟踪、图像描述、事件检测、自动驾驶、智能监控和医学图像分析等。然而,尽管目标检测领域的