基于不确定性的代价敏感半监督学习

来源 :深圳大学 | 被引量 : 0次 | 上传用户:tjunu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,半监督学习越来越受到学者们的重视。半监督学习是一种监督学习与无监督学习相结合的学习方法,其训练集样本在使用有标签数据的同时也使用了大量的无标签数据。半监督学习常使用于分类中,传统的分类学习中考虑更多是如何提高分类正确率而忽视了误分类产生的损失程度。然而真实情况下,不同类别发生错误分类时往往会产生不同的损失程度,即代价敏感。因此依据数据样本输出的不确定性,在半监督学习框架下,本文基于针对代价敏感分类问题提出了一种数据样本再训练模型。其旨在降低误分类总代价,本文主要包括如下两部分工作:第一部分,提出基于不确定性的代价敏感半监督学习模型。在训练出一个代价敏感基本分类器即极限学习机(ELM)之后,根据数据样本输出的不确定性与误分类代价之间存在的某些特性,可以将较不容易分类错误的数据样本定义为高可信赖数据,同时将那些更加容易分类错误的数据样本定义为低可信赖数据。经过一次代价敏感的分类学习训练之后,可以从测试集中选出部分不确定性较小的数据样本及其预测类别作为高可信赖数据样本。基于半监督学习框架,将原训练集数据以及高可信赖数据作为新训练集进行重训练,从而可以得到一个新的分类学习模型。实验结果显示,该分类模型相较之前误分类总代价明显下降,因此该方法在一定程度上提高了分类器的性能。第二部分,基于不确定性构建三支决策模型。该模型支撑了第一部分内容中再训练学习模型使用不确定性较小的数据作为高可信赖数据进行再训练的合理性。在训练出一个代价敏感ELM之后,通过三支决策模型对其预测结果进行决策。根据不确定性的大小,对不同的数据样本进行不同的决策,且将部分不确定性大的数据进行延迟决策。对于延迟决策区域的数据,认为当前缺少足够的信息来进行决策。等到有新信息进来时,可以再对其进行决策。通过实验表明,该分类器采取三支决策后有效的降低了误分类总代价,因此侧面表明不确定性高的数据会对分类性能产生反作用,也就证明了第一部分工作中再训练学习模型使用的不确定性低的数据作为高可信赖数据是合理的。
其他文献
中国目前是国际上对外投资的第二大国。尤其是在“一带一路”战略开始实施后,中国在“一带一路”沿线的国家的投资逐年增长,受到了东道国的大力关注。目前中国对外投资的行业
石杉碱甲(Huperzine A,Hup A)是一种高效中枢乙酰胆碱酯酶抑制剂,可应用于轻中度阿尔茨海默病的治疗。石杉科植物如千层塔是石杉碱甲的主要天然来源,但是由于资源短缺,组织培
关于非洲发展前景以及非洲在全球政治经济关系中即将崛起的当代辩论,让人们开始讨论像中国和美国这样世界大国的地位。由于中国在过去几十年里迅速而激进的发展方式,非常更加
证券市场平准基金是一国政府为了稳定本国证券市场因国内外重大事件的不利影响而产生非理性大幅波动而设立的一类政策性基金。其主要通过对证券市场进行逆向操作的方式达到稳
目的通过油酸诱导的ARDS大鼠模型,探讨阿米洛利对急性肺损伤的影响以及这种影响是否是通过PI3K/Akt信号通路实现的。方法将96只Wistar雄性大鼠随机分为空白对照组、DMSO组、A
中国从2006年开始建立国家级境外经贸合作区,以园区的形式进行对外投资。这种对外投资模式在十年间迅速发展,随着中国“一带一路”战略的提出,境外园区更承载了实现国家战略
私有化作为上市公司商业决策的一种,涉及的利益方众多,但无疑中小股东在其中无论从何种角度看,都处于相对弱势地位。以此为前提,对中小股东的保护显得尤为重要。探讨对中小股
混凝土在实际工程应用中通常都是带裂缝工作,裂缝的产生和发展是混凝土结构承载能力、耐久性能降低的主要原因;在寒区,混凝土结构的冻融损伤更加剧了混凝土性能的劣化。因此,
重复序列是真核生物基因组中的重要组成部分,并以多拷贝形式而出现的核酸序列,对基因遗传变异、转录调控和物种进化等方面具有重要的意义。重复序列的结构特征和进化关系在模
粒子物理标准模型可以描述基本粒子之间除引力以外的其他三种相互作用力,如夸克和胶子间的强相互作用力、费米子和W±玻色子之间的弱相互作用力以及光子与带电粒子间的电磁相