【摘 要】
:
集成学习是机器学习领域的热点研究之一。它主要是通过某种组合方式将多个学习器的分类结果融合到一起,从而提高集成学习的泛化能力,避免过拟合现象。集成学习应用很广泛,目
论文部分内容阅读
集成学习是机器学习领域的热点研究之一。它主要是通过某种组合方式将多个学习器的分类结果融合到一起,从而提高集成学习的泛化能力,避免过拟合现象。集成学习应用很广泛,目前主要应用领域有图像识别、语音识别、地震波分类等。选择性集成是在集成学习的基础上发展起来的,它的主要思想是通过某种方法来选取部分基模型进行集成。本文主要对选择策略的集成学习进行了研究。研究内容主要包括以下几个方面:第一,使用ID3决策树算法以及BP神经网络算法分别训练出若干个基模型。在这里,使用ID3算法训练基模型时要对数据进行离散化处理,使用BP神经网络算法时要对部分数据进行归一化处理,对数据的处理是否影响到集成性能进行了研究;第二,通过新的选择标准,采用爬山法、前序选择和后序选择这三种选择性方法对选择性集成进行了研究,实验证明了这几种方法的有效性,选择标准中参数的改变也说明了差异性对集成性能产生了一定的影响,并且把实验结果同对所有基模型进行集成的结果进行了比较,说明了选择性集成的有效性;第三,采用一些聚类方法对选择性集成进行了研究,当然这里的聚类是指将满足一定条件的基模型聚到一块,聚类选择方法主要包括层次聚类和k-means聚类。在聚类当中对集成模型的选择主要有四种方法,选取中心对象作为集成模型、随机从各个簇中选取一个对象作为集成模型、选取两个对象作为集成模型以及随机选取三个对象作为集成模型,最后对这些集成模型进行差异性度量,度量方法主要包括fail/no-fail、DF以及相关系数法;第四,对泛化误差进行了分析。通过实验进行比较也验证了选取中心对象的有效性以及选择性集成的有效性。从而说明选择性策略可以提高集成学习的泛化能力。选择性集成想必在未来也可以找到用武之地。
其他文献
膜计算是生物计算的分支,是从生物活细胞的功能和结构中抽象出来的计算模型。膜计算又称之为P系统,是由罗马尼亚科学家Gh.Paun于1998年提出的一种计算模型,为计算机科学带来
Internet上面的信息数量与日俱增,使得互联网的使用者已经很难以地址栏输入地址或简单的导航网站等方式准确、有效地找到所需内容。搜索引擎的出现给这个问题提供一个有效的解
当今世界,科学技术飞速发展,信息技术日新月异。随着网络技术快速发展和在教育中的广泛应用,针对网站和网络设备的监控已经成为网络发展中必然产物。如何选择一个适合的监控
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的主题模型算法。它对每篇文本以及文本中每个单词进行主题层次上的聚类,将高维稀疏的文本单词矩阵分解成两个相对
随着信息技术的普及和深入应用,企事业已将大量以各种形式存在的关于顾客、产品开发和协作知识等的信息存储于内部的信息管理系统中;同时因特网上也出现了大量企事业感兴趣的
在机器学习领域的分类问题中,对于待分类的样例,当我们用于判断其类别的属性个数很多时,用传统的分类算法建立分类器,消耗较多的计算机时间和空间。近年来,研究学者们对数据
深度强化学习是机器学习领域中一个新的研究热点。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并通过端对端的方式学习从原始输入到动作输出的一个映
编译器是嵌入式系统研发的基础,快速实现特定硬件平台的嵌入式系统编译器可以大大缩短嵌入式系统研发周期。目前研究人员主要采用GCC编译器后端移植方法来生成嵌入式系统编译
针对目前的规则引擎集成方式没有很好的解决系统中多规则引擎的灵活管理以及不同规则库的管理工作的不足,给出了一套基于Web的规则引擎的集成方案。规则引擎集成平台的设计分
命名实体识别(Named Entity Recognition,简称NER),作为自然语言处理任务中一项基础性工作,已经被广泛地应用在一些语言处理领域中,如信息检索、信息抽取和机器翻译等。国外