论文部分内容阅读
随着计算机技术的快速发展,迫切需要实现计算资源,数据资源,信息资源,设备资源等各种网络资源的有效共享,方便用户使用,同时还要不必考虑计算机的硬件类型,计算机的放置地点,以及计算机所安装的操作系统类型,以及实现多个异步计算机共同工作,提高整个网络的吞吐量。在这种情况下,网格技术应运而生。”数字化党校”网格平台正是以网格技术为切入点,以达到消除信息孤岛,充分实现数据资源的共享。但是随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。如何对”数字化党校”网格的数据进行有效地整理和组织,从中提取我们感兴趣的知识——这就需要web数据挖掘技术。本文正是采用网格和web挖掘这两个工具,以达到对数据的有效整合。为此,本论文重点研究了两个方面的内容:一是实现对”数字化党校”系统进行网格化,得到适合web挖掘的网格平台;二是设计一种适合于”数字化党校”网格平台下的web数据挖掘的算法。所以,本论文首先分别介绍了网格的背景,web数据挖掘的现状,网格模型的基本思想,以及常用的web数据挖掘方法。资源的调度是网格能否高效利用资源的关键组件。本文借助资源的调度的网格模型,实现对web挖掘模型建立。本文根据”数字化党校”网格资源的特点,采用基于web服务的分布式数据挖掘方法,同时借鉴ID3算法,C4.5算法,CHAID算法和CART算法等四个经典的决策树算法,并在此基础上,提出了一个适合于”数字化党校”网格平台环境的决策树算法——合并和修剪决策树算法,运用它对原始决策树的合并和修剪,既可以扩大决策树的知识涵盖面,提升其预测未知知识的准确度外,还在与原始决策树相比,具有更少节点数,降低了决策树的复杂度。最后,本论文给出了全文总结和结论,并概述了今后进一步研究的方向。