【摘 要】
:
本文探讨了数据挖掘领域中序贯模式挖掘的目的、一般方法及其并行化方法,针对并行序贯模式挖掘中需要时间最长的部分——并行计算节点之间的通信问题,提出了一种新的并行序贯
论文部分内容阅读
本文探讨了数据挖掘领域中序贯模式挖掘的目的、一般方法及其并行化方法,针对并行序贯模式挖掘中需要时间最长的部分——并行计算节点之间的通信问题,提出了一种新的并行序贯模式挖掘算法:"基于预聚类的并行序贯模式数据挖掘CLUSP算法(Pre-Clustered Sequential Pattern Data Mining)".CLUSP算法首先对原始数据序列进行"预聚类"处理,根据数据序列之间的相似程度(以同一个顺序出现的子序列的长度与原序列长度之间的比值)不同,把原始数据序列划分为不同的"类",使得类内数据序列间的相似度较大而类间数据序列间的相似度较小.然后把这些类分布到各个计算节点中,并把同一个类分到一个或者一组节点中,不同的类分布到不同的节点(组)中.然后,在调度并行序贯模式算法执行的时候,根据以上信息,将大部分通信限制在紧密联结的节点(组)之内,从而减少了整个计算网络上的通信量,达到减少通信时间开销、提高整体执行效率的目的.经过模拟数据实验证明,在一般适于划分聚类的数据集上,CLUSP算法能使序贯模式挖掘的整体性能显著提高.本文还将CLUSP算法整合到"基于集群式计算机的并行数据挖掘系统"平台中,利用平台提供的资源对用户提供决策支持.具体用于对某电梯公司销售的电梯的维护/维修历史数据序列进行序贯模式的挖掘,应用结果表明,CLUSP算法在实际数据挖掘和决策支持上取得较好的效果.本文由上海市科委"基于高性能计算的数据挖掘和知识发现"项目(01JC14022)和上海市教委"第四期重点学科"项目(205153)支持.
其他文献
近十年来,网格成为计算机研究领域的热点.世界各国为首纷纷不惜出重金开展网格技术的研究.在美国,以Ian Foster领衔的Argonne国家实验室走在了网格研究的最前沿.而IBM、Sun等
BGS+系统(批量工艺卡系统补充开发系统)是对原来运行在主机系统上的工艺卡管理系统的改造。它采取B/S模式,运用J2EE技术为工艺卡数据的管理构建了一个网络信息平台。本文详细介
工作流技术是实现企业业务流程管理自动化的一项重要的计算机技术。然而,随着Internet上电子商务的飞速发展,传统工作流管理系统越来越不能适应现代企业业务流程管理的要求,主要
随着计算机网络技术的高速发展,昂贵而特制的并行超级计算机向工作站网络转换的趋势越来越强.为了将地理上分布、异构、自治的各种工作站、PC机和专用设备通过网络连接起来实
日地空间物理是以科学数据为核心的学科,该学科的科学发现与预报保障等业务均依赖于对科学数据的处理、共享与计算分析。除了具有海量、多源、异构的大数据特征外,日地空间物
随着软件规模变得越来越大,低生产率、低质量和高费用是现今软件开发急需解决的重要问题。软件复用是缓和这些问题的最有效的方法之一。特别是随着面向对象技术的出现,为软件复
日语形态素解析是日文信息处理特有的研究课题,也是日文信息处理研究的基础。它在拼音输入、语音识别、文章校对、信息检索、文本分类、机器翻译等领域有着广泛的应用。 本
组件对象模型COM是微软提出的组件技术规范,最初目的是为了促进软件的协同工作能力,即允许两个或更多个软件应用或组件非常容易地互相合作,即便它们是由不同软件开发人员用不同
随着IP业务的快速增长,对网络带宽的需求不仅变得越来越大,而且由于IP业务量本身的不确定性和不可预见性,对网络带宽的动态分配要求也越来越迫切.传统的主要靠人工配置网络连
细分曲面造型技术是近年来计算机图形学的研究的热点课题,细分方法的各种优点使其具有广阔的应用前景.在Lee等人的论文"Multiresolution Adaptive Parameterization ofSurfac