【摘 要】
:
近年来,在文本或场景分类和医学诊断等机器学习的各个应用领域或场景中,随时都在产生越来越多的大规模数据,而这些数据往往存在大量的冗余特征,它们会对后续的机器学习与训练任务带来影响。因此,作为一种经典的降维方法,特征选择技术被广泛用在数据挖掘和分析,数据清洗和预处理过程中。尤其是对于多标签数据而言,多标签特征选择技术需要根据标签相关性信息去除冗余的噪声特征,从而可以提高多标签学习模型准确率,实现数据集
论文部分内容阅读
近年来,在文本或场景分类和医学诊断等机器学习的各个应用领域或场景中,随时都在产生越来越多的大规模数据,而这些数据往往存在大量的冗余特征,它们会对后续的机器学习与训练任务带来影响。因此,作为一种经典的降维方法,特征选择技术被广泛用在数据挖掘和分析,数据清洗和预处理过程中。尤其是对于多标签数据而言,多标签特征选择技术需要根据标签相关性信息去除冗余的噪声特征,从而可以提高多标签学习模型准确率,实现数据集的缩减、分类任务的加速和生成模型的简化等。根据数据标签的不同可以将机器学习算法分为全监督学习和半监督学习方法,同理也衍生出全监督特征选择方法和半监督特征选择方法,它们有各自适合的应用场景:全监督算法适合所有样本都有标签的数据集,而半监督算法适合样本空间中只有部分样本带有标签的情况。为了解决现有全监督和半监督多标签特征选择算法中标签相关性信息学习的不足,本文提出了两种新的方法,包括一种全监督和一种半监督多标签特征选择方法。针对全监督多标签特征选择任务,本文提出了一种局部到全局的特征选择算法。具体来说,该方法首先通过结构学习算法获取各个标签的马尔科夫边界,基于此在学习局部标签相关性的同时还能考虑全局相关性;然后基于矩阵满秩分解提出一种新的可以学习标签空间中不对称标签相关性的流形正则化项。从而提升多标签特征选择方法的效果。针对半监督多标签特征选择任务,本文提出了一种基于稀疏结构图学习的特征选择框架。具体来说,该方法通过子空间学习将原始标签空间映射到不具有标签相关性的标签子空间中;然后根据约束稀疏图学习的方法,在保持空间一致性的同时,自适应的学习样本的稀疏图权重矩阵,进而实现标签传播,最终解决半监督场景下标签相关性难以学习的问题。本文将上述两种多标签特征选择方法在多个公开数据集上进行实验评测,并在多个指标上与现存较先进的算法进行比较,证明了所提出算法的有效性。
其他文献
表面触发型真空弧离子源具有结构简单紧凑、放电功率低、放电稳定性好等特点,广泛应用于等离子体沉积、离子束注入以及金属离子源等核物理相关的研究领域。本论文在中科院战略先导专项支持下,研制了一种小型表面触发式真空弧离子源。在已有的理论研究和实验研究基础上,搭建模拟仿真平台和实验验证平台,对离子源的放电和引出特性开展了系统的分析研究。(1)本文研究了表面触发型真空弧离子源阴极几何结构对触发放电的影响,使用
海洋面积辽阔且资源丰富,挖掘海洋资源对人类社会的可持续发展意义重大,随之日益频繁的海底潜航活动对水下通信系统提出了更高的要求。水声通信传输距离远但数据速率低,传输延迟高,水下电磁波通信由于水体的趋肤效应,传输距离受限,它们都难以胜任日益增长的应用需求。与上述水下无线通信技术相比,水下无线光通信(Underwater Optical Wireless Communication,UOWC)技术能够提
相较于传统的彩色相机,深度相机不仅能获取物体的颜色信息,还能表达出物体到相机的距离。深度相机能表现出更清晰的目标物体轮廓,且不受目标物体颜色的影响,因此受到了研究者的广泛关注,在目标追踪、手势识别、医疗和人体行为分析等许多领域有重要应用。在实际场景中,深度相机还有着成本低、无需数据输入、支持语音、面部和手势识别等优点。这些都能创造出更舒适自然的人机交互环境。因此,将深度相机应用到现实场景具有重要意
近年来,深度神经网络飞速发展,被广泛应用在众多领域之中。为了应对更复杂场景的挑战,达到更高的精度,深度神经网络的规模呈爆炸式增长,耗费的计算、存储资源越来越多,给硬件带来巨大压力。为了将它部署在性能功耗受限的设备上,需要对模型进行精简和加速。深度神经网络主要由线性层和非线性层组成,本文通过压缩线性层和加速非线性层,来实现模型的压缩和性能提升。线性层包含了模型中绝大部分参数,量化线性层可以有效地精简
低共熔凝胶是一种新兴的环境友好型导电软材料,具有独特的离子导电性、环境稳定性和低毒性,且能有效克服传统水凝胶适用温度范围窄以及离子液体凝胶高毒性和高制造成本等问题。因此,低共熔凝胶被视为柔性可穿戴应变传感器的理想候选材料。然而,目前所报道的低共熔凝胶传感器还存在机械性能较差的问题,并且缺少自恢复和抗疲劳能力,难以维持传感器在长期使用过程中的信号稳定性。基于以上问题,本论文以结晶性聚合物聚乙烯醇(P
物态调控是目前凝聚态物理领域主要的研究内容之一,很多新的物理现象都是在对物质的性质调控过程中发现的,同时不同调控手段可以改变物质的电子结构、晶体结构等,对于凝聚态物理的发展起着重要的作用。高压可以减小原子间距,增加电子轨道重叠区域,改变电荷分布,诱导晶体结构或电子结构转变。而且,高压不会引入杂质元素,在物理上是一种“干净”的调控手段,通过高压调控方法能够研究物质更本征的物理行为。超导态表现出零电阻
文本分类是自然语言处理领域中最经典的任务之一。然而,在文本分类的具体应用中,数据集的分布方式常常具有不均衡性,这通常会导致传统的分类器更倾向于多数类文本,而忽略少数类文本的存在。实际上,有时对少数类文本的预测反而更有意义。因此,如何处理不平衡的文本数据集以减轻其偏态分布是一项至关重要的任务。首先,本文通过引入文本数据增强技术来处理类别不均匀的问题,即扩充少数类文本的数目使数据集更趋向于均匀分布。接
近年来,我国大科学装置得到了快速发展,包括强磁场在内的极端物理场科学实验装置对特殊材料的需求日益迫切。Cu-Ag合金因具有优异的力学和电学性能,是强磁场实验装置等领域的关键支持材料之一。对于强磁场领域的应用来说,要求Cu-Ag合金的抗拉强度≥1000MPa,相对电导率≥75%。目前,我国还不能生产达到这一要求的高强高导Cu-Ag合金,相关产品完全依赖进口。因此,发展我国自己的Cu-Ag合金,对于我
随着互联网的飞速发展,传统的TCP/IP架构已经难以面对日益增长的用户需求。信息中心网络(Information-Centric Network,ICN)中无处不在的缓存使内容更靠近用户,能够有效减少用户访问延迟,降低链路负载,提高网络性能。在实际的应用中,数据更新会导致缓存中出现过期的内容,需要使用缓存强一致性策略以保证用户获得最新的内容。对缓存建立准确的分析模型是分析网络性能、进行网络规划的基
目的:观察阴茎海绵体Cx43在间质Cajal样细胞的表达,初步探讨Cx43的改变对间质Cajal样细胞的影响方法:选取成年健康的雄性SPF级豚鼠50只并按照随机数表法分为五组,分别为正常组(normal组)10只,假手术组(sham组)10只注射生理盐水(20 ul/只)作为对照,腺相关病毒组(AAV组)10只注射腺相关病毒(20 ul/只)过表达Cx43,Gap27组10只注射浓度为0.05 u