【摘 要】
:
传统的分类任务假定一个示例只能从有限类别集合中分配一个标记。然而,在现实应用中,一个示例往往具有复杂的语义,需要同时用多个标记来描述。例如,一幅图片可以同时具有“大海”、“桥”和“行人”等对象;一篇文档同时具有“经济”和“世博会”这些关键词。多标记分类是当前机器学习的重要研究领域,其任务是为示例预测多个正确的类标记。目前,多标记分类已经在生物信息学、Web挖掘、信息检索、个性化推荐、社会网络等领域
论文部分内容阅读
传统的分类任务假定一个示例只能从有限类别集合中分配一个标记。然而,在现实应用中,一个示例往往具有复杂的语义,需要同时用多个标记来描述。例如,一幅图片可以同时具有“大海”、“桥”和“行人”等对象;一篇文档同时具有“经济”和“世博会”这些关键词。多标记分类是当前机器学习的重要研究领域,其任务是为示例预测多个正确的类标记。目前,多标记分类已经在生物信息学、Web挖掘、信息检索、个性化推荐、社会网络等领域得到广泛应用。多标记问题需要描述现实事物的多个语义,其特征数目往往达到数百甚至上千个。高维的特征空间往往给分类算法带来很多不利影响,例如更大的计算负担、模型过拟合和降低分类效果。因此,如何对多标记问题进行特征压缩,进而获得分类能力强的低维特征,是多标记分类研究的热点。进一步考虑到每个标记表达了独特的语义,往往具有特定的特征表达,本文称这种特征为“类属特征”。例如,在图片中,与纹理相关的特征有利于判断图片是否具有“沙漠”这个类标记。类属特征提取的目标是为每一个标记建立相应的低维特征空间,从而在其基础上学习高效的分类模型。另一方面,在多标记问题中,标记之间往往不是独立出现的,存在相互依赖的关系,这给多标记分类带来很大的挑战。因此,如何利用标记之间的关系来提高分类效果就成为多标记算法的另一个热点问题。因此,本文结合类属特征提取和多标记关系进行研究,提出了一系列的分类算法,主要研究内容和创新点如下:1、针对现有类属特征算法往往忽略标记关系的问题,采用聚类分析和过采样技术,提出了结合类属特征和标记关系的多标分类算法LF-LPLC。首先,通过聚类分析将原始的特征空间转换到低维的类属特征空间,这样每个标记都有自身独特的特征表达。然后通过k-最近邻技术挖掘两两标记之间的局部关系,根据这种关系首次提出在类属特征空间上运用过采样技术扩充每个标记的类属特征的方法。本文通过大量实验,验证了该算法的有效性,表明了利用标记关系扩充类属特征能够进一步提升分类器的性能。2、现有采用特征选择的方法提取类属特征的算法往往假定类属特征具有稀疏性,即类属特征来自原始特征空间的一个小的子集,但稀疏的类属特征未必总是适合建立高效的分类模型。针对这种情况,本文采用二次规划和线性回归等技术,提出了非稀疏类属特征提取和分类算法NSLSF。算法首先利用标记关系构建二次规划问题将原始的逻辑标记转化为数值标记以便传递更多的语义信息,然后在数值标记空间上利用线性回归技术获取类属特征。基于这些类属特征可以学习二元分类模型,获得的线性回归参数也可以直接用于分类。大量的实验表明,NSLSF算法作为非稀疏类属特征提取算法和分类算法均优于对比算法。3、为了解决传统栈式BR算法在利用标记关系的同时引入噪音和冗余特征的问题,采用帕累托最优技术选择类属特征,并利用类属特征扩充示例的特征空间,提出了一种有效的双层栈式BR算法SMBPO。SMBPO算法首先评估标记之间的关系,得到标记之间关系的评估矩阵,然后采用帕累托最优技术从第一层的预测标记中选择类属特征,将这种类属特征扩充到原始的特征空间用于第二层BR的训练。实验结果表明,该算法在多个多标记基准数据集上的分类效果都明显优于其它对比算法。4、针对传统分类器链算法存在标记训练顺序没有优化、原始特征和新增特征存在冗余和噪音等问题,本文提出基于类属特征的多标记分类器链算法LSF-CC。在该算法中,首先评估特征与标记、标记与标记之间的关系,然后根据关系决定标记的训练顺序。对于任一标记,首先利用关系分别从原始特征和已经训练的标记中选取类属特征,然后在这些类属特征之上为其训练二分类器。通过大量的实验结果表明,LSF-CC算法明显地提升了多标记分类器链算法的性能。
其他文献
海洋微型生物被誉为全球微观尺度生物地球化学循环的主要参与者。在全球气候变化的背景下,海洋碳循环作为全球碳循环的重要组成部分,成为了各国科学家关注的热点。海洋“微食物环”和“微型生物碳泵”理论强调了微型生物在海洋碳循环中的重要作用,它们推动了海洋有机碳的代谢转化与归宿,同时也推动了海洋氮、磷等元素的生物地球化学循环过程。浮游植物通过光合作用产生的有机物质是上层海洋活性有机碳的主要来源。浮游植物和异养
基因表达异常所导致的神经系统早期发育失调与诸多神经疾病的发生发展(包括自闭症、精神分裂症等)存在密切关联已得到众多共识。在过去的研究中,关于MEN 1(Multiple endocrine neoplasia 1,多发性内分泌腺瘤致病因子1)的功能研究主要集中在癌症领域中,而在神经系统中的作用始终缺乏充分的研究。MEN1所编码的蛋白为menin,其表达异常会导致一种在多内分泌腺出现恶性肿瘤的家族性
在本文中,将利用Moser迭代法来研究部分椭圆型方程、拟线性p-Laplacian型抛物方程组及可压Navier-Stokes-Poisson方程的弱解的正则性问题。在第一章中,我们简单介绍了偏微分方程的发展史,并从其中“弱解”的概念引出了 Moser迭代方法,并对Moser迭代方法的发展历史进行了一个简单的梳理。在第二章中,我们汇总了后面各个章节常常会用到的一些数学符号,并简单叙述了偏微分方程中
目的:现有的免疫抑制药物,如他克莫司(FK506)已被广泛用于抑制器官移植术后出现的免疫排斥反应。然而,这些药物常伴随一定的副作用,如肾毒性和神经毒性等,从而影响了移植器官的长期存活和患者术后的生活质量。因此,急需开发低毒、高效的新型免疫抑制药物。近些年来,中药来源的免疫抑制剂引起了许多学者的关注。N,N’—二环己基—N—花生烯酸酰脲(DCAAA)是以从中药板蓝根中提取分离得到的板蓝根组酸为前体化
在上海市松江区中山小学的校园里,一场"学四史"主题活动正在以形象生动的方式,为少先队员翻开波澜壮阔的百年画卷。学校少先队围绕"四史"学习,努力让红色基因融入新一代少年的血脉。在中山小学的校园里,有一座抗日小英雄夏秋生的塑像,这位年仅11岁的少年是目前可以考证的上海境内年龄最小的英烈。共产党员带领队员在塑像前上队课,讲述小英雄为民族解放英勇捐躯的可歌可泣的事迹。
上皮细胞间质化(EMT)在胚胎发育、组织重建、肿瘤转移和多种纤维化疾病等生理和病理过程中发挥重要作用,EMT过程主要在基因表达和蛋白翻译后修饰两个方面受到调控,一方面表现为SNAI1/2,ZEB,TWIST1等转录因子上调促进相关基因表达,另一方面,E-cad等黏附蛋白被胞吞降解导致细胞连接(紧密连接、黏附连接、间隙连接、桥粒、半桥粒)解离,从而致使上皮细胞变成松散的间质型细胞。相关研究表明,在T
第一部分:痛风患者尿液微生态变化的研究研究背景:有研究已经证实肠道微生态物种在痛风的发病过程中起作用。然而目前尚无有关痛风患者尿液微生态的相关研究。研究目的:通过比较痛风患者与正常健康对照者尿液中微生物菌群与分析,了解痛风患者尿液中菌群的变化,探索痛风患者尿液菌群变化是否可作为诊断痛风的标记物。研究方法:2017年3月至12月于厦门大学附属第一医院,严格按照痛风的分类诊断标准和入组筛选标准,收集痛
碳龙化学是金属有机化学的一个新分支,近年来发展了一系列具有金属杂芳香性的独特结构,统称为碳龙配合物。新结构的合成通常伴随着新的构效关系研究与应用探索,而新结构得以实现应用,除了需具备较好的稳定性且易于大量制备与储存以外,还需要具有面向应用的性质。本论文通过利用碳龙化学中一种稳定的、易于大量合成与保存的8-碳龙配合物作为起点,分别在衍生物的骨架拓展、构效关系及应用方面进行了探索,通过实验和理论计算相
历史是一本教科书。党史、新中国史、改革开放史、社会主义发展史是中国共产党和中华民族弥足珍贵的精神财富,组织小学生深入学习"四史",促进学生知史爱党、知史爱国,意义深远,关乎民族的未来与希望。习近平总书记曾寄语广大少年儿童:"为实现中华民族的伟大复兴的中国梦时刻准备着。"2021年4月,《教育部办公厅关于在思政课中加强以党史教育为重点的"四史"教育的通知》(以下简称《通知》)明确指出,各地中小学校要
1953年,为了研究社交网络,Harary提出了符号图的概念.其顶点集代表社会网络中的个体的集合,边集表示个体之间的友好或不友好关系,其中友好关系用正边表示,否则用负边.易见,符号图是普通图的一种自然推广,也是一类特殊的赋权图.在随后的几十年,符号图得到了深入地研究并广泛应用于诸多领域,如拓扑图论、拟阵、几何学及群论等.在符号图的研究中,一个自然的研究方向是将普通图的一些经典结果推广或拓展到符号图