基于Hadoop的ETL部件在分布式数据挖掘引擎中的应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:WZH805565757
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式数据挖掘引擎引擎系统随着互联网数据量不断的增加,把海量的数据逐渐成为数据沉淀数据挖掘出价值需求日益强烈的情况下产生。分布式数据挖掘引擎系统对多种源数据进行处理、数据分析挖掘为使用者提供决策的信息支撑。从当前的情况来看在网联网领域得数据者得天下,阿里巴巴通过海量的用户购买数据不断优化推荐与匹配规则;百度则通过海量的行为数据进行推荐相关以及广告。分布式数据挖掘引擎系统已经应用各种场景并在持续发展中。本文从分布式数据挖掘引擎系统的整体架构和核心技术(数据仓库、数据挖掘、实体管理器)入手。主要介绍了数据仓库和实体管理器以及系统搜索系统,重点是基本Hadoop平台的ETL部件的设计与实现。ETL主要讲述了数据预处理、数据文件的上传、数据抽取、数据变换、数据加载到数据仓库、编码、数据接口以及ETL问题与解决等。
其他文献
新媒体强势登录传播领域,潮州非遗传播如何在新媒体传播中分得传媒蛋糕一杯羹?转身还是掉队?已提上议事日程。但无论传媒技术和传播方式怎样变化,传播内容的两个要素内容与形
在我国城市化发展中,人们对建筑工程施工品质有所要求。土木工程中,混凝土结构是必不可少的,所以,提高混凝土结构的品质,是提高土木工程建筑品质的前提条件。基于此,本文介绍
2008年爆发的金融危机,给我国发展外部环境带来了复杂深刻的变化,与此同时,A+B股价差也发生了一定的变化,反映了国际经济形势变化对我国金融市场带来的影响。本文基于对08年
【正】做好党的群众工作,是新形势下加强党的执政能力建设的重要举措,是提高党的建设科学化水平的重要途径,是增强党的执政基础的关键环节,是密切党群、干群关系的重要步骤。
本文围绕绿色施工的定义及基本原则、当前我国土木工程的可持续发展现状、在土木绿色施工时实施绿色施工的重要意义、如何在土木工程中落实绿色施工以及可持续发展的理念四个
我国体育产业正由有形资产的利用向无形资产的开发转变,社会体育无形资产作为体育资源的一个重要组成部分,有着广阔的开发前景。文章尝试运用文献资料法、逻辑推理法,对我国