【摘 要】
:
多标签特征选择在高维多标签学习任务中起着至关重要的作用,并被广泛用于文本分类,Web数据挖掘等领域。现有的多标签特征选择方法主要是探索特征-标签、特征-特征和标签-标签的相关关系中的两种,少数方法能够同时处理三种类型的相关关系。如果能够同时考虑三种相关关系,可以获得带有更多辨识信息的特征子集,用于构建性能更加优越的预测模型。为了解决这个问题,本文将多标签特征选择问题转化为局部因果结构学习问题,围绕
【基金项目】
:
科技创新2030-“新一代人工智能”重大项目:常识知识学习与因果分析,NO.2020AAA0106100,起止时间:2020年11月~2024年10月; 国家自然科学基金面上项目:面向多源高维数据的局部因果关系挖掘研究,NO.6186206,起止时间:2019年1月~2022年12月; 智能信息处理山西省重点实验室开放课题:高维数
论文部分内容阅读
多标签特征选择在高维多标签学习任务中起着至关重要的作用,并被广泛用于文本分类,Web数据挖掘等领域。现有的多标签特征选择方法主要是探索特征-标签、特征-特征和标签-标签的相关关系中的两种,少数方法能够同时处理三种类型的相关关系。如果能够同时考虑三种相关关系,可以获得带有更多辨识信息的特征子集,用于构建性能更加优越的预测模型。为了解决这个问题,本文将多标签特征选择问题转化为局部因果结构学习问题,围绕局部因果结构学习驱动的多标签特征选择问题展开研究,主要研究内容如下:(1)为了能够同时处理多标签数据中的特征-标签,特征-特征与标签-标签之间的关系,本文提出了一种基于局部因果结构的多标签特征选择(Local Causal Structure based Multi-label Feature Selection,CBMFS)算法。该算法首先将包含所有变量的多标签数据集视作一个整体,使用传统的因果特征选择方法学习数据集上每个标签变量的局部因果结构,从而能够考虑到三种相关关系,并且能够处理高维的多标签数据;然后,为了弥补前一步中所构造的局部结构中存在其它标签变量导致的部分特征丢失问题,CBMFS学习每个标签在不考虑其他标签情况下的局部因果结构;最后通过一个选择性删除错误特征的过程对前两步得到的特征集合进行处理,得到用于构建预测模型的特征子集。实验结果表明所提出的方法拥有较为良好的性能表现。(2)为了进一步研究其中标签-标签相关性对结构学习过程的影响,即传统的因果特征选择方法应用于多标签数据会因标签间相关性造成部分相关特征丢失的问题,本文提出了一种具有结构修正能力的因果多标签特征选择(Structure-Correct Causal Multi-label Feature Selection,SCMFS)算法。该算法首先将特征与标签都视作普通变量,学习包含所有变量的多标签数据集的情况下每个标签的局部因果结构,然后在已知结构的基础上通过提出一个选择性找回特征的方法找回因标签间相关性丢失的特征,最后通过选择性排除错误特征的方法将有可能错误的特征从前面两步得到的特征子集中移除,得到最终用于构建预测模型的特征子集。实验结果表明所提出的算法性能表现优异。
其他文献
考古遗存是古代先辈活动遗留下的客观实体和精神文明的物质载体,目前正面临着来自自然活动及人类活动的巨大挑战,数字化模型技术将为其延长生命并赋予新的活力。多视图三维重建方法具备相当便捷、高效和低成本的特点,是有力的数字化手段之一。作为历史遗存的物品纹理相似性很强,多视图重建流程中的特征提取准确性至关重要;另一方面,传统的多视图重建流程到点云或三角化网格即为完成,但历史遗存的展示性需求,希望数字模型拥有
随着社交媒体和电子邮件的普遍使用,短文本在互联网上大量涌现。短文本分类任务在情感分析、垃圾邮件分类和新闻分类等领域中有广泛的应用。一方面,这些短文本数据长度限制和一词多义带来了数据稀疏性与歧义性问题。另一方面,实际应用中的短文本含有大量的无标记数据,而人工标注这些无标记数据耗时且繁琐,使得短文本分类任务面临着巨大挑战。为此,本文分别针对标记数据与无标记数据开展了监督和半监督的短文本分类方法研究,其
伴随着互联网技术的快速发展,网络购物已经逐渐成为了人们生活中不可或缺的一部分,国内网上购物平台的兴起也进一步导致中文商品评论文本数据的大量产生,这些评论文本数据中往往包含着大量的情感信息,因此如何分析应用这些信息无论对于企业、个人还是国家都有着重要的研究意义。本文在首先介绍了中文商品评论情感分析的研究背景和意义、国内外研究现状和相关的理论基础知识后,着重研究中文商品评论的情感分析。本文的主要研究工
随着物联网技术的飞速发展,出现了大量的物联网异构设备的共存问题,也产生了不同协议的无线设备之间互相通信的需求。传统的方法是利用物联网网关,物联网网关配备了多个无线接口,为不同技术进行协议转换,实现异构物联网设备之间的间接连接。然而,物联网网关需要接收和发送不同的信号,引入了额外的硬件成本和信道资源占用。因此,研究者提出了跨协议通信技术(CrossTechnology Communication,C
旋转设备故障诊断是保证设备可靠运行的重要研究内容,轴承复合故障诊断由于其特征高度耦合,故障类型繁多,是故障诊断中的难点问题。现有的复合故障诊断方法多需要获取大量的复合故障样本进行信号分析或者模式识别,考虑到实际工况中,轴承的单一故障样本比较容易采集和标注,但复合故障的样本却难以获取且难以标注。本文从单一故障样本与标签的约束条件入手,研究复合故障样本识别的新方法,提出基于零样本嵌入模型的复合故障诊断
骨龄评估(Bone Age Assessment,BAA)作为儿童健康成长的重要组成部分,可以直接反映出儿童的生长发育情况,得到了人们的广泛关注。儿童骨骼的生长发育过程是连续的、阶段的,并具有具有一定的规律性。因此,专家可以利用手部X光片判断出儿童骨骼的生长发育情况,并对遗传性和内分泌疾病进行相关诊断。此外,骨龄评估还可以用于特殊人才的选拔和作为罪行推定的依据,在体育、法律等领域也发挥着重要的作用
在人工智能广泛应用的今天,对话系统作为自然语言处理的一大分支,或已成为衡量人工智能发展程度的一大标准。在对话系统的发展过程中面临着多种困难,如在多轮对话生成工作中如何将对话的历史信息更好的在生成中体现以及在对话生成过程中如何避免主题缺失等现象。在本文的研究中,旨在解决在开放域多轮对话生成过程中缺乏上下文信息和主题缺失的问题,论文研究了一种基于层次注意力机制的上下文主题对话模型。本文的主要工作如下:
在EAST托卡马克装置上,采用了多种可见光光学诊断设备监控等离子体的状态。为了保证这些光学诊断设备的准确性,需要对其光束空间方向进行校准,而在狭窄的真空室内进行人工校准是不可接受的。为了解决这个问题,本文设计一种基于视觉伺服的光束定向系统。将一个专用的相机采集模块安装在新松GCR5-910机器人的末端,用于获取光斑中心点的像素坐标,经过坐标变换和空间直线拟合算法拟合出光束的空间方向。同时使用视觉伺
近年来,区块链技术越来越受关注,区块链技术也得到了多方面的发展。但是,区块链面临低吞吐量和低存储扩展性的瓶颈。分片技术可以提高区块链的并发吞吐能力,但现有的交易分配方法不能有效提高区块链的收益。多副本区块方法为一个数据块设置多个副本,并将每个副本存储在不同的节点中,相比区块的全复制方法,多副本方法有效降低了节点的存储开销。但现有的区块链多副本方法忽略了区块的查询代价。针对这些问题,本文分别研究面向
托卡马克核聚变堆在运行的时候会产生大量热能、辐射能、电磁场以及中子流,多数情况下都无法进行人工维护。因此需要使用遥操作控制系统对托卡马克装置内部进行维护和操作。在遥操作上层控制系统中需要采集多种数据来对任务进行创建。采集机械臂数据可通过示教来进行,将数据存储到遥操作上层控制系统的运行管理子系统数据库中。但示教采集信息的方式效率低,在目标位置发生变化后就要重新示教,而且在聚变堆运行后装置内部情况不允