基于云计算数据挖掘平台的工作流系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:pc167
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科学的发展以及信息化应用的普及,各行各业产生了很多的数据,再随着时间的积累,这些数据变得海量。在这些海量的数据中,必然会存在一些有用的、帮助决策的知识,这就需要我们用数据挖掘技术从中取得。面对海量的数据,传统的数据挖掘算法的性能在机器性能的瓶颈下,也露出了它的不足。云计算的出现改变了局面,云计算以共享软硬件资源的理念弥补了机器性能的不足,它允许大量的计算资源统一调度和管理。基于云计算平台的数据挖掘算法也应运而生,出现了许多并行的数据处理、数据挖掘算法。单一的并行算法在处理某种数据挖掘任务中,时间和效率上都有很好的表现。如果能将并行算法进行任意组合,数据挖掘算法将发挥更加强大的功效。   因此,本文对基于云计算数据挖掘平台的工作流系统开展了研究工作,旨在提供开放的可定制的基于云计算的数据挖掘服务,主要工作包括:   1)提供基于WEB的并行数据挖掘流程建模工具。该工具允许用户通过互联网,自主的用图形化界面构建数据挖掘流程。所构建的数据挖掘流程中的任务对应底层并行的数据挖掘算法,用户可以根据业务的需求自定义的配置算法的参数以及云计算资源参数。同时该流程建模工具提供了丰富的结果展示组件以显示最终的数据挖掘结果。   2)对工作流进行解析执行,并提供流程监控和云计算作业监控机制。工作流引擎实现了对工作流流程定义的解析、执行,同时对流程的运行状况进行监控,特别是对流程中的云计算作业进行监控,从而使并行数据挖掘过程更加的可控。   3)在1)2)的基础上实现了一个基于云计算数据挖掘平台的工作流系统。该系统基于Hadoop平台,集成了基于WEB的流程建模工具,云计算作业监控子系统,提供了高灵活性可定制的并行数据挖掘服务。
其他文献
随着软件即服务(SaaS)的飞速发展,SaaS模式给租户带来了极大方便,也给SaaS提供商带来了很多机会。如何让SaaS服务更为灵活的适应租户的业务,并且能够随时跟从租户的业务变化、方
随着互联网、移动互联网的快速发展,互联网从开始的内容的传递者到内容的第一生产地,从社会精英的通信、信息管理和计算工具到社会大众的身边事分享、娱乐及日常购物工具,互联网
随着人类对能源消耗的增长,能源稀缺和环境污染问题越来越严重。研究显示,近五年来信息与通信技术(ICT)行业消耗的能量在全球所占的比例由2%增长到10%,并且有快速增长的趋势。同时
近年来,网络技术正得到飞速发展,与之同时得到快速发展的是网络试验床技术。由斯坦福大学提出的Openflow技术便是其中之一。Openflow是一种控制与转发相分离的网络结构,科研人员
在互联网快速发展的今天,网络已经成为人们各抒己见,品头论足的重要媒介之一。在这些互联网网站中,BBS提供了一个人与人交互意见、想法的平台,对网络舆情的传播和导向起着非常重
计算机的发明无论是对社会的发展还是对个人的日常生活都带来了巨大的变革,互联网的诞生标志着信息时代的来临,“信息爆炸”是这个时代典型的特征之一。政府、机构、公司等利用
电信网络体系架构在不断演进和发展的同时,用户对业务多样化的需求增长迅速,传统电话网络向下一代网络的演变已成为当今网络发展的大趋势。下一代网络必将朝着融合与开放的方向
随着信息化程度的提高,信息系统中数据量呈现出爆炸性的增长趋势。为此,如何高效率管理海量数据是当前急需解决的热点问题。   基于云存储环境中存储设备的同构、异构特性,面
IP地址空间耗尽直接导致了下一代Internet协议-IPv6的发展。随着Internet的发展,IPv6将取代IPv4,这一点已经在业界达成共识。   本篇论文的研究工作集中在IPv6现网过渡方案,
目前,计算机病毒的产生和广泛传播,对计算机和互联网的安全构成了严重的威胁,互联网已经成为计算机病毒传播的主要途径。借助于互联网信息传递的便利性,计算机病毒的传播呈现出日