论文部分内容阅读
随着信息技术的发展,大量数据在各种应用中被产生出来,并被分布的存储和积累在不同地点,如何从这些大量积累的、分布的数据中发现有用的、潜在的知识模式是一个极具挑战性的问题。网格技术用于在分布异构的资源间实现协作和共享,将数据挖掘技术运用于网格平台之上,为从大量分布的数据中获取有用的知识模式提供了有效的解决方案。但数据挖掘过程是一个涉及大量操作和数据的复杂过程,与网格平台相结合,无疑又增加了挖掘过程的复杂性。目前在数据挖掘技术的研究中,数据挖掘算法被作为一个独立的整体,以黑盒的方式出现在应用中,在这种情况下,数据挖掘执行过程对用户和执行环境是不可见的,这使得集中式环境中的数据挖掘算法不能根据分布式环境的特点动态的转化为分布式的数据挖掘过程,用户不能灵活的对数据挖掘执行过程进行控制。此外,访问数据挖掘服务与访问网格服务的接口相互独立给用户访问网格中的数据挖掘服务带来不便。这些因素都导致了数据挖掘技术在网格平台上不能有效的发挥其作用。正如实际的铁路货运应用系统中需要解决的问题:在铁路货运网格平台的基础上,如何充分利用分布的计算资源,对分布在各个铁路局的货运数据进行有效的深层次的挖掘以辅助决策。在本文提出的方法中,数据挖掘算法被分解成由细粒度数据挖掘操作组成的执行过程模型;在此基础之上,结合网格环境中数据资源和计算资源的分布情况,对模型进行优化,得到可以在网格中执行的分布式数据挖掘执行过程模型;然后,执行引擎将模型调度到各个网格节点执行;最后通过统一的、与网格平台相兼容的接口将数据挖掘结果提供给用户。本文在网格平台上,使用提出的方法实现了关联规则、序列模式、决策树分类器和朴素贝叶斯分类器等典型的数据挖掘执行过程模型的分解、优化与执行。本文的主要工作及创新点包括:·提出了由细粒度的数据挖掘操作组成的数据挖掘执行过程模型,用于描述数据挖掘算法的执行过程,将数据挖掘算法白盒化。通过该模型,用户、应用程序和执行环境能清晰的理解整个数据挖掘算法执行经过的中间步骤及各步骤产生的中间结果的信息。本文在集中式环境中,基于仿真数据对数据挖掘执行过程模型中的各个操作进行了实验评估,证明了数据挖掘执行过程模型能够将数据挖掘算法白盒化,将算法中各个步骤的执行情况展现出来。·设计了基于网格环境的数据挖掘执行过程模型的优化算法,用于将集中式执行过程模型转化为可在多个网格节点上并行执行的分布式执行过程模型,该优化算法采用从部分到整体逐层处理的方式,将整个优化过程分为数据具体化、全局优化和局部优化三个子过程,在每个子过程中,根据数据挖掘操作的类型和数据分布的特征对操作依次进行优化。本文基于网格平台,使用仿真数据对分布式数据挖掘执行过程模型进行了实验,验证了分布式数据挖掘执行过程模型在响应时间和资源使用平衡方面优于集中式的处理方式。·设计了数据挖掘执行过程模型引擎,为分布式数据挖掘执行过程模型在网格平台上执行提供了运行环境,其中,设计了(a)基于网格环境的调度算法,用于将分布式数据挖掘执行过程模型以流程链为单位调度到各个网格节点执行;(b)基于WSRF规范实现的执行服务和控制服务。本文在网格平台上,使用仿真数据进行实验,分析了分布式数据挖掘执行过程模型在网格环境中使用引擎调度执行时,各个流程链调度执行的响应时间;并基于铁路货运网格实验平台和实际的货票数据,使用CART决策树分类器实现了铁路重点客户的预测。·设计了在网格环境中访问数据挖掘服务的接口规范WS-DAI-DM,其目的是使数据挖掘服务与基于OGSA体系架构的网格平台无缝融合,使用户能够像使用网格平台提供的其他服务一样来使用网格环境中的数据挖掘服务。本文通过实例说明了如何使用WS-DAI-DM接口规范,该规范已提交开放网格社区(Open Grid Forum)。最后,对全文做了总结,并对下一步研究工作做了展望。