【摘 要】
:
决策树(CART)模型因其可读性强,分类效率高的特点,受到科学研究各个领域的青睐。但在特征分布复杂的实际数据集上,经典CART算法在选择特征建立树模型时存在效率过低,分类精度差的情况,从而引起对CART分层变量选择的进一步研究。本文首先对决策树算法的发展和理论进行梳理和研究,结合高维数据特征数量庞大的特点,阐述CART算法的局限性和特征选择的必要性。在介绍了三种特征选择方法定义的基础上,进一步详细
论文部分内容阅读
决策树(CART)模型因其可读性强,分类效率高的特点,受到科学研究各个领域的青睐。但在特征分布复杂的实际数据集上,经典CART算法在选择特征建立树模型时存在效率过低,分类精度差的情况,从而引起对CART分层变量选择的进一步研究。本文首先对决策树算法的发展和理论进行梳理和研究,结合高维数据特征数量庞大的特点,阐述CART算法的局限性和特征选择的必要性。在介绍了三种特征选择方法定义的基础上,进一步详细研究基于统计特性的简单过滤方法、基于方差分析的过滤式方法和基于随机森林的装袋式方法。作为实证研究,对基因微阵列数据中急性淋巴细胞白血病数据集进行试验,采用三种特征选择方法,从12625个基因的原始特征集中选择出重要性排序在前30的基因作为最终的特征集合。针对高维问题的CART分层变量选择上,本文将重复交叉验证(Repeated cross-validation)与分层交叉验证(Nested cross-validation)相结合,提出 了改进的分层重复交叉验证的CART算法,并在基因微阵列数据集上进行实验验证。在3937个特征的高维数据上建立的改进的CART分类准确度0.85高于在30个特征上建立的CART的0.82,改进的CART适用高维数据,且分类精度提高。针对常规数据集的CART分层变量的选择上,本文将特征与分类类别的距离度量D(xi)与Gini系数相组合,得到改进的选择分层变量的指标GD(S,xi=ximi),并采用网格搜索确定最优的权重α、β,提出基于网格搜索的改进CART,并在UCI数据库的心脏病数据集上与常用的9种分类算法进行实验对比。改进的CART在心脏病数据集上的分类准确度为0.94,高于包括CART、多层感知器、Bernoulli贝叶斯算法、logistics回归算法、支持向量机等在内的其他9种分类算法的分类准确度。本文在CART算法的数据集处理和特征选择指标的两个方面进行了创新,提出两种改进算法,对在实际分类问题背景下改进CART具有积极意义。
其他文献
宁安铁路安庆长江大桥主桥为双塔三索面钢桁梁斜拉桥,属于高次超静定结构,具有很强的非线性,受力情况复杂。为了及时反馈桥梁服役情况,确保线路安全运营,亟需建立一套长期监
基于开展自然环境条件下徐变试验,对现行的和考虑温度影响的徐变模型对于自然环境温度条件的适用性进行检验。结合目前通用桥梁有限元程序,实现应用选取出的组合徐变模型将变
由于高校在国家创新体系中的重要作用,高校创新能力评价是当前科学评价领域的一个研究热点。本文在对国内外高校创新能力评价研究现状分析的基础上,首次利用层次分析法构建了高
低渗油藏目前作为我国十分重要的油气资源,储量潜力巨大,但因其自身的特殊性和复杂性,生产开发上仍存在诸多难题,因此研究如何做到合理、有效的开发低渗油藏是有十分重要的。
计算机辅助教学(CAI)是现代教育的一个重要标志和流行趋势,已开始朝网络化、智能化、多媒体化方向发展。我国高等医学CAI课件开发起步晚,水平低。我们应加强医学专业人员、计算机编程人
目的:对短串联重复序列(STR)的分析是目前对人类DNA进行研究的主要手段,它主要应用于亲缘关系、个体识别以及身份认证等研究中,但是绝大多数情况下,受环境因素的影响,DNA发生降解、
玉米是我省主要粮食作物,是增产潜力很大的高产高效作物,应抓好以下十项关键技术措施,以获高产.
乡镇企业管理报载,江苏吴江市横扇镇将一合资项目移至交通、通讯条件好,地理位置优越的市属开发区建厂,只5个月便出了第一批产品。这种打破狭隘乡土观念,跨出家门办厂的可贵
山西医科大学护理学院注重本科生教学管理工作,构建了先进的护理实训中心,通过改善教学条件,优化课程结构,对教学内容、教学方法及教学手段进行全方位调整,整合护理本科生的
随着跨海大桥工程日益增多,在复杂海洋条件下的桥梁基础修建中常常使用大直径围堰,如平潭海峡公铁大桥中使用的吊箱钢围堰,沪通长江大桥主航道桥沉井施工等。而海洋环境中,围堰施工往往会经历浮运和下沉过程,在这个过程中,围堰会受到来自海流的水流力作用,来自波浪的周期性作用,以及海流和波浪联合作用下的波流力作用,而围堰浮运下沉过程的安全性和稳定性直接决定于前期对围堰受力的准确预估,因此本文主要目的为得到围堰下