基于Hadoop的ETL部件在分布式数据挖掘引擎中的应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：WZH805565757

【摘要】

：

分布式数据挖掘引擎引擎系统随着互联网数据量不断的增加,把海量的数据逐渐成为数据沉淀数据挖掘出价值需求日益强烈的情况下产生。分布式数据挖掘引擎系统对多种源数据进行

【作者】

：

陈闯

【出处】

：

南京邮电大学

【发表日期】

：

2016年期

【关键词】

：

ETL Hadoop 实体数据仓库数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分布式数据挖掘引擎引擎系统随着互联网数据量不断的增加,把海量的数据逐渐成为数据沉淀数据挖掘出价值需求日益强烈的情况下产生。分布式数据挖掘引擎系统对多种源数据进行处理、数据分析挖掘为使用者提供决策的信息支撑。从当前的情况来看在网联网领域得数据者得天下,阿里巴巴通过海量的用户购买数据不断优化推荐与匹配规则;百度则通过海量的行为数据进行推荐相关以及广告。分布式数据挖掘引擎系统已经应用各种场景并在持续发展中。本文从分布式数据挖掘引擎系统的整体架构和核心技术(数据仓库、数据挖掘、实体管理器)入手。主要介绍了数据仓库和实体管理器以及系统搜索系统,重点是基本Hadoop平台的ETL部件的设计与实现。ETL主要讲述了数据预处理、数据文件的上传、数据抽取、数据变换、数据加载到数据仓库、编码、数据接口以及ETL问题与解决等。

其他文献

浅议新媒体语境下潮州非遗微视频的内容与形式问题

新媒体强势登录传播领域,潮州非遗传播如何在新媒体传播中分得传媒蛋糕一杯羹?转身还是掉队?已提上议事日程。但无论传媒技术和传播方式怎样变化,传播内容的两个要素内容与形

期刊

新媒体潮州非遗内容形式

土木工程建筑中混凝土结构的施工技术思考

在我国城市化发展中,人们对建筑工程施工品质有所要求。土木工程中,混凝土结构是必不可少的,所以,提高混凝土结构的品质,是提高土木工程建筑品质的前提条件。基于此,本文介绍

期刊

土木工程混凝土施工技术

金融危机以来A+B股价差变化的实证研究

2008年爆发的金融危机,给我国发展外部环境带来了复杂深刻的变化,与此同时,A+B股价差也发生了一定的变化,反映了国际经济形势变化对我国金融市场带来的影响。本文基于对08年

期刊

价格差异广义矩估计方法面板数据溢价率

把握高知识群体工作特点和基本内涵

【正】做好党的群众工作,是新形势下加强党的执政能力建设的重要举措,是提高党的建设科学化水平的重要途径,是增强党的执政基础的关键环节,是密切党群、干群关系的重要步骤。

期刊

高知识群体新形势下党的群众工作实现中国梦

关于土木工程中的绿色施工和可持续发展研究

本文围绕绿色施工的定义及基本原则、当前我国土木工程的可持续发展现状、在土木绿色施工时实施绿色施工的重要意义、如何在土木工程中落实绿色施工以及可持续发展的理念四个

期刊

土木工程绿色施工可持续发展

从两种坐标系的异同谈极坐标的教学

期刊

极坐标极坐标系直角坐标系

试论我国社会体育无形资产的开发

我国体育产业正由有形资产的利用向无形资产的开发转变,社会体育无形资产作为体育资源的一个重要组成部分,有着广阔的开发前景。文章尝试运用文献资料法、逻辑推理法,对我国

期刊

社会体育无形资产开发

基于Hadoop的ETL部件在分布式数据挖掘引擎中的应用

其他学术论文