【摘 要】
:
在大数据应用过程中,对特征集合进行约简,降低数据维度,有助于提升数据模型的泛化能力.采用随机森林模型选择和相似性度量结合的方式对特征集合进行特征初选,并通过前向搜索
【机 构】
:
中国石油大学(北京)石油数据挖掘北京市重点实验室; 中国石油大学(北京)地球物理与信息工程学院; 闽南师范大学计算机学院数据科学与智能应用福建省高等学校重点实验室;
论文部分内容阅读
在大数据应用过程中,对特征集合进行约简,降低数据维度,有助于提升数据模型的泛化能力.采用随机森林模型选择和相似性度量结合的方式对特征集合进行特征初选,并通过前向搜索策略以距离为评价方式对初选集合进行二次筛选,最终获得特征子集.算法模型采用局部遍历以提高执行效率,同时通过前向选择算法解决传统方法无法确定最优特征数目的问题.实验结果表明,本文提出的方法能更有效地选择特征子集,提高模型的分类准确率.
其他文献
1997年12月28日~1998年1月24日,新疆兵团农四师七十九团畜牧总师何明俊随新疆引智办组织的“澳式家庭牧场”考察团赴澳大利亚进行了为期26天的专业考察培训。考察团成员在约翰资讯国际有限公司俞
目的探讨PDCA循环管理法在手术室无菌物品管理中的应用效果。方法 2015年1~6月采用传统管法管理手术室无菌物件(对照组),2015年7~12月采用PDCA循环管理方法管理手术室无菌物
<正>审批,这一带有浓郁计划体制色彩的词汇,至今仍存留在希望以市场为导向发展的中国动画产业中。它在计划体制下的合理性在于:如上海美术电影制片厂、中央电视台美术片创作
2014年3月至2016年5月,为配合盘龙城国家考古遗址公园建设,武汉市文物考古研究所等单位对遗址城垣及周边遗存、李家嘴墓地等进行了考古勘探,确定了城垣内外边界、各城门的具
本文鉴于河北物流与京津对接存在主体利益至上、物流要素流动不顺畅、河北省物流发展水平较低三大障碍,提出了河北物流与京津对接的政策、硬件和软件方面建议。
两宋诗词咏及酒具者,很不少。其中固不乏用典,但也有数量很多的写实之作。宋庞元英《文昌杂录》中说:“太师潞公西归,开封推官赵君锡作小诗二十篇,纪恩宠以送行,其尤为人传诵
<正>没有规矩,不成方圆。一个政党,要有自己的规矩。5月27日,《中国共产党党内法规制定条例》(以下简称《制定条例》)和《中国共产党党内法规和规范性文件备案规定》(以下简
<正> 邻二甲苯氧化制苯酐,目前已知国内三处。沈阳化工研究院与南京有机化工厂、天津(3527厂)分别协作小试验已成功。南京有机化工厂将在今年内投入
<正>一、传统艺术的回望与梳理中国传统绘画依题材分为山水、花鸟、人物三科。工笔花鸟画作为民族绘画中的一个重要部分,形成于唐、成熟于五代、兴盛于两宋,发展历程已经上千