动态集成学习算法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:zeone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习能显著提高分类的精度因而一直是机器学习领域的研究热点。传统的集成学习算法未能考虑基分类器的局部有效性,没有考虑到大数据集的复杂性,对参与集成的分类器未能进行评估选择,结构不够灵活,导致面对大数据集时的分类准确度不高并且效率低下,因此如选择性集成和动态多分类器整合技术等更有效的集成学习算法被提出。本文主要针对动态多分类器整合技术,研究了两种动态集成算法:一种重点针对分类器的构建方法,在不同子集训练生成基分类器,用决策树的方式进行整合的集成学习算法;另一种是一个动态融合方法——基于相关度分析的动态集成算法。本文的主要研究内容分两部分:在第一部分,我们基于梯度优化的思想,提出一种决策树结构的集成学习系统。采用一种动态集成技术是将整个数据集分成若干个子集,在每个子集上训练基分类器,测试时,根据不同被测样本所属子集的不同动态地选择部分而非全部的基分类器进行集成或动态调整基分类器的权重,从而提高分类准确度。有很多划分子集的方法被用于动态集成。本文提出的集成算法使用分类器分类类别为下层分类器划分出更小的子集,利用这些更小的子集训练样本构建具有更好局部分类精度的基分类器,并将多个基分类器组成决策树结构的集成学习系统。通过基分类器的集成在美国某高校招生录取这一个实际应用的数据集上进行实验,实验结果验证了该算法在保持分类器偏置不变的同时有效地减少了集成系统的方差,提高了集成的泛化性能。在第二部分,我们从分类器融合角度,提出基于相关度分析的动态融合方法。这种动态集成算法是根据待测样本与训练样本的相似度度量来判定分类器的有效区域,从而实现较好的分类器动态融合。利用学习的方法获得更为精确的分类相关度,在多分类器系统的上层增加一个选择层用于动态选择参与集成的基分类器,选择层选择行为的实现是由训练样本在参与集成的多个分类器上分类正确与否的标记信息训练得到。同时为提高集成效果,先用互补指数和分类正确覆盖率对基分类器进行了筛选和排序。在多个实验数据集上进行实验,结果表明所提出的算法是有效的。本文从分类器构造和整合这两个不同的方面对如何提高集成分类系统性能进行了研究,并在实际数据集上做了大量的试验,为我们解决实际问题提供了一些可行方案。
其他文献
地区间发展的不平衡进一步导致收入差距,劳动力在高收入驱动下持续从欠发达地区向发达地区迁移。但劳动力迁移过程中依然存在很多“歧视”问题,一些研究从家庭背景、代际影响角度探讨收入差异成因。相比于本地非迁移劳动力拥有的社会资本优势,迁移劳动力极易遭遇不公平竞争。研究劳动力迁移促进代际收入流动性的作用机制,对扭转阶层固化及缩小收入差距具有政策价值。研究方法是借鉴托达罗模型和成本-收益理论,构建扩展的劳动力
近几十年来,随着改革开放的层次不断深化,中国的资本市场也在飞速发展,股票的价格波动成为亿万股民日益关心的问题。然而日臻成熟的基本面分析技术并不能完全解释股票收益率的变化,而“股市异象”的存在,也令人深思,除却基本面分析以外,股票价格究竟还因何而变化,市场中究竟有没有一只“看不见的手”来左右股票收益率的变动,在此基础上提出的市场微观结构理论及其效应能在多大程度上解释股票收益率的变动,成为金融学者们日
在卫星的装配过程中,传统的安装手段已经不能满足工作效率以及安装精度的要求。机械臂定位精准、工作快捷,是卫星等航天器材装配的必然选择。机械臂末端的定位是其应用的关键
随着分数阶微分方程理论及应用的发展,关于分数阶最优控制问题的研究引起了广泛的关注.本文主要是利用谱方法分别对两类分数阶方程约束的最优控制问题进行了数值逼近.首先考虑如下分布阶最优控制问题:#12 S.t.#12其中-1Dtα表示α(0<α<1)阶的左Riemann-Liouville分数阶导数,y是状态变量,u是控制变量,yd和f分别表示理想状态和给定的已知函数,Uad表示控制集,γ是
卷积神经网络凭借其强大的特征学习能力和特征表达能力应用领域越来越广泛,近年来已成为计算机视觉领域的研究热点。然而,复杂的深度网络模型具有参数规模大、计算需求高、占用存储空间大等问题,无法移植到嵌入式设备或移动终端以满足实际应用中的需求。因此,对卷积神经网络的压缩研究就至关重要。本文在广泛研究了现有卷积神经网络压缩方法的基础上提出了融合权重与卷积核删减的网络压缩方法,并以卷积神经网络在目标检测和图像
作为科技载体的专利文本中蕴含了丰富的背景、技术、功能、效应等知识。采用功能-效应-专利的检索方式,就可以借鉴不同领域专利中的原理和方法,从而打破思维惯性,为产品设计
随着经济快速发展,环渤海区域已经成为中国经济发展的“第三增长极”。金融资本流动是发展区域经济的动力,在金融高效运行条件下,其合理有序流动,为区域产业结构发展注入资金和活力,促进区域经济协调发展。由于金融基础、地理位置、产业结构等差异,环渤海区域三省两市的金融资本流动规律复杂。环渤海区域金融资本流动性研究成为政府和国内外学者研究热点。本文分析环渤海区域三省两市金融资本流动变化规律,特别是产业结构对金
现如今,人口老龄化现象加剧,寻找一种解决方法以减轻此现象给社会带来的压力尤为重要。怎样结合当下不断发展的先进技术,切实提高老年人和残疾人的自由活动空间已成为当今热点研究内容。智能化的兴起,引起服务型机器人研究热潮,载有机械臂的智能轮椅作为其研究内容之一,具有轮椅的移动性特点和机械臂灵活性特点,所以在一定程度上可以对老年人与残疾人的生活起到辅助作用,可以扩大他们的生活自由度。然而该设备的控制方式大多
近年来,无论从数学研究还是从实际应用来看,分数阶薛定谔方程解的研究受到了广泛的关注,其理论被广泛应用于描述微观粒子状态、量子力学、分子光谱等领域,对数学物理与生物数学等其他诸多学科有着深远影响.本文利用变分方法及临界点理论中的一些工具和分析方法对两类分数阶薛定谔方程解的存在性进行分析研究,具体如下:第一类分数阶薛定谔方程:其中(?)∈(0,1),V(x)∈C(R3,R),f∈C(R,R).在合适的
为了处理不确定性信息,Zakowski将Pawlak粗糙集推广到覆盖粗糙集,其已经被广泛应用到知识获取和特征选择等众多领域.在实际生活中,存在着大量的动态覆盖信息系统,而非增量方法在动态覆盖信息系统中计算集合近似和属性约简非常耗时.为了提高知识获取的效率,本文研究了动态覆盖信息系统集合近似计算和属性约简的增量方法,主要内容如下:首先,介绍了粗糙集理论的研究背景和意义,以及国内外研究现状,并简单回顾