论文部分内容阅读
随着信息科学的发展以及信息化应用的普及,各行各业产生了很多的数据,再随着时间的积累,这些数据变得海量。在这些海量的数据中,必然会存在一些有用的、帮助决策的知识,这就需要我们用数据挖掘技术从中取得。面对海量的数据,传统的数据挖掘算法的性能在机器性能的瓶颈下,也露出了它的不足。云计算的出现改变了局面,云计算以共享软硬件资源的理念弥补了机器性能的不足,它允许大量的计算资源统一调度和管理。基于云计算平台的数据挖掘算法也应运而生,出现了许多并行的数据处理、数据挖掘算法。单一的并行算法在处理某种数据挖掘任务中,时间和效率上都有很好的表现。如果能将并行算法进行任意组合,数据挖掘算法将发挥更加强大的功效。
因此,本文对基于云计算数据挖掘平台的工作流系统开展了研究工作,旨在提供开放的可定制的基于云计算的数据挖掘服务,主要工作包括:
1)提供基于WEB的并行数据挖掘流程建模工具。该工具允许用户通过互联网,自主的用图形化界面构建数据挖掘流程。所构建的数据挖掘流程中的任务对应底层并行的数据挖掘算法,用户可以根据业务的需求自定义的配置算法的参数以及云计算资源参数。同时该流程建模工具提供了丰富的结果展示组件以显示最终的数据挖掘结果。
2)对工作流进行解析执行,并提供流程监控和云计算作业监控机制。工作流引擎实现了对工作流流程定义的解析、执行,同时对流程的运行状况进行监控,特别是对流程中的云计算作业进行监控,从而使并行数据挖掘过程更加的可控。
3)在1)2)的基础上实现了一个基于云计算数据挖掘平台的工作流系统。该系统基于Hadoop平台,集成了基于WEB的流程建模工具,云计算作业监控子系统,提供了高灵活性可定制的并行数据挖掘服务。