基于Hadoop的在线数据挖掘系统的设计与实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:beijiqie123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式数据存储以及处理技术的发展,使得可较为廉价的从海量数据中发掘潜在价值。当前数据挖掘基础技术取得长足进展,基本满足了在多种场景下的需求。但当前系统间集成度低,使用门槛较高,易用性尚显不足。本文以Hadoop为基础,设计并实现了在线数据挖掘系统,实现了一种通过拖拽可视化控件完成数据挖掘过程构建及验证的方式,降低了数据挖掘门槛,提高了挖掘过程构建效率。本文调研了数据挖掘一般过程以及大数据场景下的数据挖掘技术栈。本文以Hadoop以及相关服务组件为基础,将数据挖掘过程中的数据转换、数据建模、模型评估等多个环节的数据处理逻辑封装成为各个独立算子,通过数据流向将算子串联形成工作流,完成数据挖掘过程构建以及评估。本文主要工作内容有:(1)算子统一抽象与集成要实现算子的灵活组合,最大程度满足数据挖掘需要,算子需要在统一的抽象基础上进行实现,并具有较好的可配置性以及可扩展性。本文以Hive表作为算子的数据模型,在统一接口规范下实现了包括数据输入输出、数据转换、数据建模以及模型评估等多个环节的算子,并提供良好的继承体系便于算子的扩展。(2)工作流的设计实现工作流作为系统对数据挖掘过程的抽象描述,需要解决工作流在描述、执行控制等多环节的问题。本文设计并实现了一套工作流控制服务,包括工作流分解服务、工作流数据管理服务、算子执行服务等多个模块,实现了零代码条件下的数据挖掘过程构建与运行。本文系统已通过初步测试,并已部署运行,较好的满足了预设需求,降低了数据挖掘过程构建和验证时间。
其他文献
互联网时代的快速发展带来了大数据时代,大规模数据的高效处理对生产和实践意义重大,传统的计算模式已无法满足海量数据的处理需求。2004年,在Google发表了GFS和MapReduce的
歧义是自然语言处理中经常遇见的一种语法现象。当我们在对一个句子做句法分析的时候,常常会面临这样一个问题,即一个短语或者子句可以附着在两个或者两个以上的句子成员节点
自20世纪90年代发展起来的无线传感器网络(Wireless Sensor Networks, WSN)已被广泛应用在环境、医疗及军事等领域中。在许多相关理论和应用研究中,节点定位技术和覆盖控制技
现如今,企业信息系统产生的数据量急剧增加,用于企业数据管理的联机事务处理系统的分析处理能力差强人意。在此应用背景下,数据仓库技术获得了长足的发展,数据仓库技术于20世
随着互联网技术的高速发展,在国际贸易领域内的各企业间存在着大量分布、自治、异构的数据源,阻碍了他们的信息交互。目前一些组织与机构试图通过形成一系列基于XML的电子商
当前,信息技术产业已从以计算设备为核心的计算时代进入到以存储设备为核心的存储时代,数据海量化成为了一种趋势。分布式存储以网络技术为基础,利用小型服务器甚至PC机来搭建存
对自然现象的真实模拟,由于能够增添虚拟现实真实感,更好地烘托环境气氛,因此历来是人们在影视特技、广告、游戏中一种视觉要求。气体属于流体研究范畴,为了逼真地模拟真实世
近些年来,随着网络的快速发展,传统网络的结构变得越来越臃肿,其弊端表现的越来越明显。一方面,传统网络设备的控制功能和报文转发功能是紧密集成的,这种方式极大地增加了网
AO幅面平台彩色扫描仪使用多CCD头进行图像采集并通过图像拼接来完成对大幅面原稿的扫描。多头拼接扫描的机械结构,对扫描精度的影响很大,而高精度的多CCD头拼接调校又是一件
在软件运行发生失效后,如何进行有效的故障定位是当今软件故障诊断领域的研究热点。虽然目前软件故障定位技术已有一定经验可以借鉴,但究竟如何做到将多种方法综合,以实现高