【摘 要】
:
在许多分类任务中,需要大量的已标记样本才能达到满意的分类精度。然而对样本进行标记需要大量的专业领域知识以及昂贵的标注成本,导致在实际应用中存在大量的未标记样本。因此如何利用未标记样本的信息去提升分类性能,这为传统的机器学习算法带来了巨大挑战。主动学习是一种能够解决传统分类问题中样本缺失标签信息问题的机器学习方法,该方法通过迭代选择最有价值的未标记样本进行标记,可以获得较好的分类性能,这引起了大量学
论文部分内容阅读
在许多分类任务中,需要大量的已标记样本才能达到满意的分类精度。然而对样本进行标记需要大量的专业领域知识以及昂贵的标注成本,导致在实际应用中存在大量的未标记样本。因此如何利用未标记样本的信息去提升分类性能,这为传统的机器学习算法带来了巨大挑战。主动学习是一种能够解决传统分类问题中样本缺失标签信息问题的机器学习方法,该方法通过迭代选择最有价值的未标记样本进行标记,可以获得较好的分类性能,这引起了大量学者的广泛关注和研究。目前主动学习方法主要分为三类:基于成员查询综合的主动学习、基于流的主动学习以及基于池的主动学习方法。其中,现有的一些基于池的主动学习方法在实际应用中已取得较大的进展,但是从融合信息性和代表性的角度来对样本进行采样时仍然存在忽略样本空间分布信息、忽略不同部分的样本具有不同标记价值、难以在信息性和代表性标准之间找到平衡以及不同查询策略在不同数据集中表现不同等问题。本文就上述所存在的不足进行了研究,并提出了相应的主动学习方法。本文主要的研究工作包括以下两个部分:1.针对大多数主动学习方法忽略了样本空间分布信息以及不同区域的样本具有不同标记价值的问题,采用邻域熵作为三支决策理论的决策函数,提出了一种基于邻域熵的三支决策主动学习方法。首先,设计了一种基于邻域熵的查询策略,该策略结合样本分布特征,以邻域内样本的加权信息熵作为度量方式,从而可以选择出同时具备信息性和代表性的样本;此外,考虑到位于不同区域的样本具有不同的标记价值,将邻域熵作为三支决策的决策函数,通过决策函数值将未标记样本划分到三个不同的区域,并进行不同处理,从而选择出标记价值最高的样本进行标记,之后将标记后的样本训练分类器,使得分类器的性能得到显著提升。2.针对信息性和代表性标准之间难以平衡以及不同数据集上采用不同查询策略性能表现不同的问题,将学习过程形式化为马尔可夫决策过程并结合所获得的反馈,提出了一种查询策略和权重的自适应主动学习方法。首先,设计了一种权重自适应框架,该框架结合先前学习过程中的反馈信息,以学习过程中所获得分类增益自适应地更新信息性和代表性标准之间的权重,从而可以选择出对分类性能有重大贡献的样本;此外,针对不同数据集中采用不同的查询策略会有不同的性能的问题,将整个主动学习过程形式化为马尔可夫决策过程,可以根据过去的决策序列为给定数据集自适应地选择出具有最大回报的查询策略组合,从而可以进一步提高分类器的准确性。本文从融合信息性和代表性的角度来对主动学习方法展开研究,使用邻域熵策略、三支决策思想、强化学习技术以及权重自适应等方式来平衡信息性和代表性标准,可以选择出高价值的样本。在基准数据集和实际应用中的实验结果表明模型的分类性能可以得到进一步提升,因此,本文的工作具有一定的研究意义和应用价值。
其他文献
乡村公共空间是村民进行生产、生活、沟通交流等多种行为活动的主要场所,因此它的建设质量对村民的生活具有重大的影响。如今,乡村公共空间正在面临“有空间无人气”、“活力低”、“使用效率低”等一系列问题。归根结底,出现这些问题的原因在于空间无吸引力,无法吸引村民前往活动或逗留。为解决这些问题,本文通过感知视角的研究,从村民的角度出发探寻提升乡村公共空间吸引力的方法。首先,通过借鉴相关理论以及对前人研究成果
红黏土是广西地区分布较为广泛的特殊性土,具有一些不良的工程地质特性,广西同时将碳酸钙产业打造为千亿元产业之一,结合地理优势选用不同粒径碳酸钙对红黏土进行改性。本文以桂林雁山红黏土为研究对象,探讨在不同粒径碳酸钙影响下对其强度和微观特性的影响,主要的研究成果如下:(1)对不同粒径碳酸钙红黏土进行X射线衍射(XRD)、p H值、比表面积、界限含水率试验得出:掺入不同粒径碳酸钙会使红黏土的p H值、矿物
近些年来,高强轻质材料被广泛应用于各种类型的桥梁结构,促使人行桥结构趋向于大跨、纤细、轻柔的方向发展。随着人行桥结构的轻柔化,会导致人行桥结构阻尼较小,在人行荷载的作用下易引起结构出现大幅度振动问题。铝合金材料凭借着其轻质、美观、耐腐蚀特点在人行桥建造方面具有非常好的应用前景。铝合金的密度和弹性模量只有钢材密度和弹性模量的1/3,此时,人群自身质量和阻尼对人行桥结构动力特性的影响往往不能被忽略。本
重金属污染是一个全球性的棘手问题,真菌在修复含重金属废水方面具有广阔的潜力。本文通过基因组、蛋白组和代谢组三个组学对一株强耐铬海洋真菌Penicillium janthinellum P1进行了详细研究。(1)通过对真菌模型种的系统发育分析,估计P.janthinellum P1和Penicillium oxalicum 114-2的进化分歧时间为74 MYA。通过anti SMASH软件鉴定出3
随着社会的迅速发展,人们对各种高新技术材料的需求剧增,越来越多的人开始致力于研发高性能的有机半导体或导电材料。其中,“空穴”型(p型)有机导电材料的研究已取得了很大的进展,其最高电导率超过1000 S/cm,性能接近无机材料水平;相比之下,电子型(n型)有机导电材料的发展则较为缓慢,尤其电导率还有待进一步提高。优化途径主要包括:一方面是进行分子骨架设计和侧链修饰,分子共轭骨架决定了材料的能级、分子
农药可控制农作物病害和虫害并保证作物高产优质,长期使用农药会导致其在环境中大量残留,并易向非靶标生物迁移累积,影响农产品质量安全以及生态环境安全问题。植物根际环境中丰富的微生物群落可提高植物抵御环境胁迫的能力,在农药残留修复中具有重要作用,然而目前对农药-植物-根际环境三者之间相互作用的研究较为缺乏。代谢组学可通过检测代谢物变化阐明生物组织在各种胁迫下的应答。因此,本论文基于代谢组学分析策略与多组
本文基于萘醛,香豆素,苯并噻唑三种荧光团设计并合成了5个荧光探针,分别用于镓离子(Ga3+),一氧化碳(CO),次氯酸(HClO),水合肼(N2H4)的特异性检测。通过核磁共振、质谱等手段对其结构进行了表征,并通过紫外-可见光谱和荧光光谱等方法对探针的检测性能进行了研究。1、通过2-羟基-1-萘醛和L-丝氨酸之间的席夫碱反应设计并制备了3-羟基-2-[(2-羟基-萘-1-基亚甲基)-氨基]-丙酸(
湛江组黏土具有强结构性和强触变性,扰动后结构损伤与静置后结构恢复过程中土体的应力-应变关系复杂,传统的本构模型对湛江组黏土存在适用性问题。研究湛江组黏土扰动损伤与触变恢复的本构关系对湛江组黏土地基强度和变形计算具有重要的理论意义。通过开展湛江组黏土原状土以及在不同养护时间的重塑土三轴固结排水试验,分别建立了原状土的结构损伤模型和重塑土的触变恢复模型,并对模型的有效性进行验证。主要的研究工作及结论如
随着网络和信息技术的快速发展,各种各样的信息呈量级剧增,过量的信息已经严重影响了用户对信息获取的准确度,聚类算法和推荐算法的出现就有效地缓解了这一问题。通过聚类分析将相关性高的信息聚集成类,再把有用的信息推荐给用户。模糊C均值聚类(Fuzzy C-Means Clustering,FCM)算法能够对现实中没有明确界限的数据集进行有效聚类,但它存在着对数据进行初始聚类时,无法确定聚类中心的问题。协同
金属有机分子筛材料(MOZs)作为金属有机框架材料(MOFs)的一个分支,是利用金属离子和配体之间的配位模拟沸石这一结构特点发展而来的,集成了沸石和MOFs的优点,比如优异的稳定性和高的比表面积等,在诸多方面都有潜在的应用前景。已报道的结构中,合成方案采用有机胺和醇的组合,酰胺溶剂,较大的有机分子等可以调控出新颖的拓扑,不过普适性都有待提高。本文以较为廉价的二甲亚砜(DMSO)作为溶剂来合成新颖的