Spark平台加权分层子空间随机森林算法研究

来源 :软件导刊 | 被引量 : 0次 | 上传用户:dengjuanjuan8288
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何在各式大数据中更快更准确地挖掘有用信息是研究热点。随机森林算法作为一种重要的机器学习算法,适用于大部分数据集。随机森林算法可以并行运行,这是随机森林算法处理大数据集时的优势。将随机森林算法应用在大数据处理框架Spark上,提高了随机森林算法处理大数据集时的速度。首先对随机森林进行参数调优,找到当前数据集的最优参数组合,采用随机森林模型对特征进行重要度计算,筛选掉噪声数据;然后采用卡方检验对数据集的特征进行分层,实现分层子空间随机森林并验证准确率和袋外精度;最后在传统分层子空间随机森林基础上对分层子空间
其他文献
将高分辨率遥感图像进行像素级海陆分割是遥感应用领域的一项基础性工作,对海岸线提取和海洋近岸目标检测具有重要意义,但传统阈值方法往往由于高分辨率遥感图像覆盖范围广、地物纹理复杂等特点而难以取得预期效果。为了提升高分辨率遥感影像海陆分割精度,改善传统阈值方法的不足,基于深度神经网络模型利用编码器—解码器架构,并在编码层中引入残差块,以更好地对特征图进行高级语义信息提取,通过解码层将编码层生成的特征图还
1猪仔成活率低的因素1.1饲养管理不合理冬季,天气寒冷,猪舍的保温灯或其他供暖设施不到位,舍内温度低,导致仔猪冻死或扎堆压死,受寒冷刺激患病引起死亡。分娩时,母猪的胎位不
20世纪20-30年代,在麦积区林区、林缘区的东岔、三岔、党川、利桥一带就有种植中药材的历史,但由于当时种植技术落后及销路不畅等因素的影响,致使中药材产业发展步伐缓慢,直
1 Graf Wilhelm德国选育,亲本为Comice×Nordhauser Winterforelle.果实大,平均单果重250 g,果皮底色绿黄,盖色为黄褐色;果肉香气浓,多汁,品质极佳.晚秋品种,果实可贮藏
本文针对初中英语练习讲评课中教师“一言堂”现象普遍的问题,论述通过合作学习改变课堂“一言堂”的途径,认为教师可在学生合作学习前增强学生的合作技巧,进行科学、合理的
饲料营养是畜产品形成的物质基础,很多营养素都参与了肉质变化的代谢和生化过程,对内品质的调控起着非常重要的作用。从营养学角度就调控猪肉食用品质的营养措施进行了简要的概
娃娃菜属小型白菜类,由于其粗纤维含量少,口感好,品质佳而深受消费者的欢迎。同时,由于其具有生育期短,抗病虫害能力强,便于操作管理等优点,已成为高原夏菜的主推品种之一。近年来,笔
广告点击率预测是互联网广告投放系统中的核心组件,用户个性化广告推荐的准确度对于提高商业系统回报率有着至关重要的作用。提出一种基于深度残差网络的DeepFM点击率预测架
目的探讨彩色多普勒超声诊断乳腺恶性肿瘤的临床价值。方法2005年1月-2007年12月在我院住院治疗的乳腺肿块患者45例,应用彩色多普勒超声进行检查,分析其二维特征及彩色多普勒血