大型数据集的高效参数剪枝决策树算法研究

来源 :计算机工程 | 被引量 : 0次 | 上传用户:matianxiang87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树在数据分类上具有较好的效果,但容易产生过拟合的现象,解决方法是对决策树进行剪枝处理。然而,传统剪枝算法有以下不足,预剪枝容易产生欠拟合问题,后剪枝时间耗费高,网络搜索剪枝仅适用于小型数据集。为解决以上问题,提出一种新型的参数剪枝决策树算法,藉由找出合适的参数,以便训练出效能高的模型。总体分为两部分,第一部分是根据网络安全态势感知模型建立剪枝决策树态势感知系统架构,分析网络的数据流;第二部分是在生成决策树的过程中寻找最优参数,利用最优参数自上而下完成剪枝。第二部分算法实现过程如下,首先利用枚举算法与二分搜索算法找出决策树最大深度,然后采用深度优先搜索算法找到节点最小分裂数和最大特征数,最终结合这三个最优参数,生成决策树。实验结果表明,此方法在面对大型数据下过拟合的风险较小,训练集与测试集的准确率都在95%以上。同时,提出的参数剪枝算法与后剪枝算法中表现较好的悲观错误剪枝算法相比,快了近20倍。
其他文献
报纸
学位
大数据时代,采用POI等多源数据可分析城市轨道交通站点与其周边用地开发程度之间的关系。在利用Python获取高德地图23大类POI数据的基础上,从轨道交通站点服务空间核密度及混合度2个维度出发,进而运用K-Means聚类方法对合肥轨道交通122个站点进行了分类评价。结果显示:轨道站点服务空间核密度呈现明显的空间分异特征,老城区轨道站点服务空间核密度远高于郊区站点,二环线以外站点服务空间核密度迅速降
期刊
近年来沈阳一直致力于创建国家中心城市,以城市转型带动产业转型和社会转型。国家中心城市是中国城镇体系规划设置的最高层级,是金融、管理、文化和交通方面的重要中心和枢纽,目前我国正式确立的国家中心城市在建设过程中都非常注重城市的数字化发展。实现东北数字第一城建设目标,对助力沈阳建设国家中心城市有着至关重要的战略意义。本文针对当前数字沈阳建设中存在的短板,分析探讨加快建设数字沈阳的有效途径,在顶层设计、应
会议
学位
报纸
赋与小说两种文体在互渗中不断发展。在明清通俗文学繁荣的背景下,赋体文在长篇章回体小说中的运用更趋丰富多样。《水浒传》中的赋体文多达208篇,在小说褒贬人物、烘托气氛、渲染场面、抒情言志等方面发挥了艺术功能,既为读者营造了审美休憩空间,又彰显了亦俗亦雅的美学特色和表现手法的丰富化。《水浒传》中的赋体文具有不可小觑的文学价值,但部分借用留文或套语改编而来的赋体文亦呈现程式化之弊端。
期刊
报纸
五育融合促全面发展,以实现立德树人的根本任务。以初中生物学综合实践作业设计为例,在目标设计时充分挖掘五育融合点,基于学科大概念发展与培养学科核心素养,注重学生的实践参与;在内容设计中有具体主题的引领,要基于真实的情境,紧密联系学生实际生活,尝试进行跨学科的融合,以更好地支持五育融合落地。
期刊
华南虎(Panthera tigris amoyensis)是中国特有的虎亚种,已在野外功能性灭绝,仅存由6只野生祖先的后裔组成的圈养种群。尽管该种群建立了清楚的谱系,并实行了严格的遗传管理。但随着种群数量的增长,近交系数也逐年提高,并出现了日趋严重的近交衰退,表现为幼崽死亡率高和成年虎繁殖力低。同时,一只野生祖先携带了北印支虎(P.t.corbetii)的基因,现存的所有个体均与其有血缘关系。在
学位