【摘 要】
:
在机器学习领域的分类问题中,对于待分类的样例,当我们用于判断其类别的属性个数很多时,用传统的分类算法建立分类器,消耗较多的计算机时间和空间。近年来,研究学者们对数据
论文部分内容阅读
在机器学习领域的分类问题中,对于待分类的样例,当我们用于判断其类别的属性个数很多时,用传统的分类算法建立分类器,消耗较多的计算机时间和空间。近年来,研究学者们对数据集的属性组合进行了相关的研究,提出了很多种属性组合构造分类器的新思想,但是构建的属性组合分类器大多是在一个数据集上挑选属性组合建立一个分类器。由于选择属性组合的标准不同,各自又形成了不同的分类器,并且每一种构建方法都有其优点和缺点。同时,集成分类器的思想也有新的研究成果。本文基于学者们的已做工作,我们进行总结和创新,做了以下工作。本文首先提出用属性组合构建分类器的研究目的和意义。基于一些数据集中,条件属性过多这一特点,在本文中首先采用将数据集进行聚类的方法将相似的训练样例进行分堆,以便于更好的针对每一堆相似的样例挑选属性组合,生成针对于不同性质样例的分类器,并阐述了使用此种方法的优点。其次,基于学者们近年来的工作,阐述了多变量决策树的理论和方法。我们采用较少的、有针对性的对每一个数据聚类堆进行随机选择的属性,生成多棵多变量决策树。最后,根据每一个聚类堆构建的多棵多变量决策树形成随机森林来进行分类器的加权集成,从而试图覆盖数据集中的所有概念,进一步保证了分类的精度。通过以上工作,我们可以处理数据量大并且条件属性较多的数据集,通过选择较少的属性和属性组合构建多棵多变量决策树从而完成分类器的集成。通过实验证明,这种方法可以有效降低决策树这种分类器的规模,减小分类规则的数目,并且有效减小建树的时间开销,同时在一定程度上保证分类的准确性。
其他文献
在工程实践和科学研究中存在着大量的组合优化问题,且大多带有约束条件,采用传统的数学优化方法将很难求解。差分进化算法是近年提出的一种新的自然计算方法,也是基于种群迭
本体作为共享概念模型的形式化规范说明,具有良好的概念层次结构和语义表达能力,已经引起越来越多国内外专家学者的关注,并在知识工程、语义检索等领域得到广泛应用。然而,现
词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开,而是一段连续的汉字串。如何把汉字串正确
跨层设计是最近几年通信网络领域研究的热点之一。跨层设计是相对于传统的分层设计思想而言的。传统的分层设计思想在有线网络设计中的应用非常成功。但是在无线网络中,传统
为了满足基于无线传感器网络的危险品运输监测系统的高可靠性和高实时性,在设计时必须要求传感器节点的低功耗和系统对事件处理的实时性响应,从而实现车辆在行驶状态中传感器
膜计算是生物计算的分支,是从生物活细胞的功能和结构中抽象出来的计算模型。膜计算又称之为P系统,是由罗马尼亚科学家Gh.Paun于1998年提出的一种计算模型,为计算机科学带来
Internet上面的信息数量与日俱增,使得互联网的使用者已经很难以地址栏输入地址或简单的导航网站等方式准确、有效地找到所需内容。搜索引擎的出现给这个问题提供一个有效的解
当今世界,科学技术飞速发展,信息技术日新月异。随着网络技术快速发展和在教育中的广泛应用,针对网站和网络设备的监控已经成为网络发展中必然产物。如何选择一个适合的监控
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的主题模型算法。它对每篇文本以及文本中每个单词进行主题层次上的聚类,将高维稀疏的文本单词矩阵分解成两个相对
随着信息技术的普及和深入应用,企事业已将大量以各种形式存在的关于顾客、产品开发和协作知识等的信息存储于内部的信息管理系统中;同时因特网上也出现了大量企事业感兴趣的