【摘 要】
:
传统的机器学习分类算法大多需要满足训练数据和测试数据服从相同分布的条件,根据已有的标记样本建立分类模型,对测试样本进行分类预测。但是在实际情况中,这样的同分布假设往往
论文部分内容阅读
传统的机器学习分类算法大多需要满足训练数据和测试数据服从相同分布的条件,根据已有的标记样本建立分类模型,对测试样本进行分类预测。但是在实际情况中,这样的同分布假设往往无法得到满足,当数据分布发生改变时,就会导致学习到的模型无法很好的应用到测试数据上,于是传统的机器学习算法需要从零开始,重新标注大量的训练数据,但是标注新数据需要耗费大量的财力、人力及物力,若丢弃掉那些大量的不同分布下的过期的训练数据也造成了资源的浪费。这时,迁移学习变得尤为重要,因为它可以从一个任务的数据中获取知识,来帮助新任务的学习。迁移学习是一种新的机器学习框架,旨在将一个环境中的知识应用到新环境的领域与任务中。因此,迁移学习不需要服从数据同分布假设的条件。本文将较全面的介绍迁移学习的研究概况,并结合集成学习对迁移算法做了如下的研究:(1)提出了选择性集成迁移学习算法。根据目标域有标记样本的信息,对源域进行初步的筛选,然后对筛选后的源域进行随机采样获取N个源域子集,由它们在目标域训练样本上的经验误差进一步筛选源域子集,最终将选取的源域训练子集分别与目标域训练样本组合成相应的多个训练集,训练分类器并对目标域测试数据集多数投票预测。该算法充分利用了源域中的有用信息及多样性,通过训练集的重组,提高目标域训练样本在训练集合中的贡献率,取得了一定的效果。(2)提出了基于维数约简的集成迁移学习算法。对于特征维数庞大的样本分类,如果对特征进行降维,可以降低源域与目标域之间的差异性,更好地迁移源域的标签信息,同时可以降低算法的时间复杂度。新算法通过将源域数据进行Boostrap采样T遍,并与目标域测试数据结合成对应的T个数据集,通过对每个数据集分别进行SVD维数约简,在对应的各个低维空间中,分别由K近邻预测目标测试数据,最终再集成投票。结合了集成和降维后,新算法表现出比较好的性能。(3)提出了基于半监督的集成迁移学习算法。前两个算法都是通过有标记的训练数据建立模型,然后用于预测测试数据。通过引入了目标领域中的无标记样本参与训练,采用半监督自训练模式,并利用动态数据集重组集成思想,提出一种新的半监督的集成迁移算法,在剪切源域中差异性大的样本的同时,添加目标域无标记样本扩充目标训练样本集,与一些迁移算法相比,分类效果有一定的提高。
其他文献
湿度传感器广泛应用于气象检测、农业生产、工业控制、医疗设备等领域。近年来,湿度传感器的发展越来越趋向于微型化。现有的微型湿度传感器类型主要包括电容式、电阻式、压阻
低磷限制了植物生长和产量,是全球主要的非生物胁迫之一(Sanchez and Salinas,1981)。大豆重组自交系群体NJRIKY是以科丰1号(母本)×南农1138-2(父本)为组合的衍生家系,使用模拟群体抽样标准法(SPSC)调整为184个家系(王永军等,2003)。本研究考查了NJRIKY的116个株系在低磷和适磷条件下7个农艺性状包括:株高(HT),地上部分鲜重(FSW),根系鲜重(F
随着单片微波集成电路(MMIC)技术的发展和武器系统的小型化,具有体积小、质量轻、隐蔽性好等诸多优势的毫米波辐射计开始在军事应用中受到重视。但是由于工作环境复杂、自身
石斛为名贵中草药,石斛多糖是其主要的有效成分。本文以药用石斛之一的细茎石斛为材料,以从其茎断提取的多糖成分。DMP4a-1为研究对象,对其结构特性作了进一步的分析;同时主要以巨噬细胞为模型研究了细茎石斛多糖DMP4a-1的免疫调节活性,主要实验结果如下: 细茎石斛酸性多糖DMP4a-1为灰黄色絮状固体,紫外分析推测其为蛋白多糖;经高效液相凝胶渗透色谱分析,根据标准曲线测得其分子量:Mw 30
Orexins, 即hypocretins, 是1998 年分别被两个研究组同时发现的一种神经肽,orexin 神经元主要位于外侧下丘脑和穹隆区。Orexin 系统包括来自同一前体物质的二个单体orexin-A 和orexin-B(ORX-A 和ORX-B)。Orexins 主要是通过活化两个G 蛋白偶联受体OX1R 和OX2R 发挥作用。大量研究已经表明,orexins 在促进觉醒中发挥非常重要
汽车衡是生活中不可或缺的计量器具,其计量准确与否直接关系着国民的经济利益。受称重传感器的非线性、秤体的机械变形等影响,汽车衡系统存在非线性误差和偏载误差。现有的误差补偿方法,调节过程复杂,补偿效果较差。针对以上问题,本文以汽车衡的先验知识作为约束条件,构建一种基于权值光滑优化神经网络的汽车衡称重融合方法,建立称重误差补偿模型,提高称重准确度。同时,搭建了基于低功耗单片机MSP430F449为核心处
空中手写作为一种新颖的人机交互技术,相较于传统的平面手写输入,能给予用户更自由的书写空间。随着MEMS技术的发展,越来越多的空间手写设备采用具有体积小、成本低等优点的M
本文主要研究了两方面内容:第一部分:载脂蛋白AV对细胞和模型动物甘油三酯代谢的影响 流行病学研究表明高甘油三酯血症(hypertriglyceridemia,HTG)是冠心病(coronaryarterydi