基于并行化的决策树算法优化及其应用研究

被引量 : 0次 | 上传用户:youthboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着无线通信、MEMS(微机电系统)等技术的不断进步与发展,各种各样的传感数据呈现指数级增长。这些海量数据不仅给传统的数据库存储和处理器计算带来了挑战,同时也给数据挖掘领域带来了新的发展机遇。数据挖掘旨在利用分类、聚类等数据挖掘相关算法从大量、有噪声、随机、模糊的数据中寻找出有用信息。在海量数据时代,数据连续属性的准确分割、数据挖掘算法并行化对于快速获取正确的结果显得越来越重要。分类算法在数据挖掘的各个方面会被使用到,决策树分类器作为分类算法中十分重要的分类器,具有易于理解、准确率高、不需要领域知识等优点。为了提高决策树算法的效率,降低决策树构造的复杂度,本文针对传统决策树算法不适合处理海量数据的特点,提出一种决策树的并行化优化算法。相较于传统的决策树算法,在连续属性的离散化上,对于分割点的选取进行了一定的优化同时实行了属性分割的并行化。在决策树构造过程中,采用并行化的设计方案,利用MapReduce编程模型来进行决策树的构造,提出一种新的并行化方案,不仅降低了算法的时间复杂度,在一定程度上解决决策树缺乏伸缩性的问题,也简化了并行化设计过程。同时在剪枝算法上也将后剪枝算法进行了并行化实现,加快了决策树的剪枝过程。最后在对上述算法理论研究的基础上,针对家用空调设计了基于数据挖掘的家用电器能耗监测平台,帮助用户及时有效地了解家电的能耗情况。
其他文献
目的观察中药熏洗配合西药治疗2型糖尿病周围神经病变的效果。方法选取我院2013年2月至2018年4月收治的62例2型糖尿病周围神经病变患者,随机分为干预组与对照组各31例。干预
近年来,组织考试舞弊行为的出现使得考试舞弊呈现方式组织化、手段科技化、人员职业化、动机商业化等新特点,并有产业化的趋势,这不仅严重冲击和危害国家教育考试制度和正常
从我国监事会、独立董事和内部审计这三大内部控制监督机构失败的现状出发,分析其存在的问题和失败的原因,进而提出对这三大机构进行改造、整合和利用,构建以“监审委员会”
改革开放三十多年来,我国对外贸易总体呈现出了较好的发展态势,对外交流与合作愈来愈频繁,正逐步融入世界经济体系中。但是,随着国际经济形势的发展与变化,以及在2007年由美
中药注射剂不良反应时有发生,提高其质量评控水平对保障其临床用药安全具有重要意义。目前中药注射剂不良反应的发生主要以过敏反应为主,其中类过敏反应约占70-80%。而肥大细
为解决医院人力短缺压力,自2016年10月我院开始试行以非全日制用工形式聘用护理人员,并制定《非全日制用工管理规范》。此用工形式的优势是能精简人事管理程序,提高人力资源
第一部分人源脱细胞动脉基质的制备及其组织学特点目的:通过制备人源脱细胞动脉基质及胆道基质,观察其组织学特点并比较差异,筛选合适的组织工程胆道修复材料。方法:利用昆明医
儿童期和青少年期抑郁(早发性抑郁)表现出与成年期抑郁不同的一些临床症状、药物疗效和生理反应特征,导致这些差异的神经生物学基础目前尚不清楚.儿童期和青少年期神经系统的
大型齿轮在风电、轮船和大型机械中具有广泛的应用。大型齿轮测量中心是实现齿轮综合精度测量、保证齿轮精度并提高这些装备性能的一项关键测量设备。大型齿轮测量存在测量范
回顾了数字化图书馆发展的历程,着重论述了数字化图书馆的特点和数字化信息资源建设、管理与服务的方式。