【摘 要】
:
数据挖掘是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物,是目前国际上数据库和信息决策系统
论文部分内容阅读
数据挖掘是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物,是目前国际上数据库和信息决策系统最前沿的研究方向之一。 其中,关联规则挖掘是近几年研究较多的数据挖掘方法,应用也最为广泛。文中详细介绍了关联规则的基本概念、性质及其经典算法。现有的关联规则挖掘算法和模型主要是基于数据库或数据仓库的,采用集中式处理。随着分布式数据库和网络技术的发展,它们不能满足分布式数据挖掘的需要。分布式关联规则的挖掘就是在这样的背景下提出的。 本文详细介绍和分析了分布式关联规则挖掘FDM算法。在分布式数据环境下,频繁集计算和网络间的通讯代价是挖掘算法的瓶颈所在。从这个角度出发,文中给出了解决方案。通过事务剪枝、采用数组链表相结合的数据结构存储候选数据集来改进频繁集支持数的计算;增加挖掘服务器站点来完成各站点间的结果收集、计算和广播,候选集的上界剪枝等任务,并控制整个挖掘过程中的同步运算,减少了网络间的信息传输量。在改进FDM算法的基础上,本文引入分布式对象技术,提出开发基于CORBA规范的分布式关联规则挖掘系统。给出了系统总体设计框架,讨论了系统实现所涉及到的关键技术。
其他文献
传统计算语言学的种种理论和方法,都以语料统计为基础。但是,只靠统计概率是不能统摄复杂多变的语言现象的,因此还需要结合语言规则,进行句法和语义的分析。 依存语法是上个世
近年来web2.0社交网站和电子商务网站突飞猛进的发展,正深刻地改变着普通大众的生活方式,在web2.0网站上用户可以自由地发布信息,使得互联网上的信息规模正以指数式增加,而且人们
传统的传统方法认为过程是解决软件问题的核心,重视过程、重视文档是这些方法的特征。本文从传统的传统开发方法(以瀑布模型为代表)开始,简单分析了瀑布模型、演进模型、反复模
目前随着电子商务的发展经历了以IT厂商和媒体为主的第一阶段和以电子商务服务商为主体的第二阶段后,现在正在进入以传统企业为主体的第三阶段,这个阶段就是协同电子商务阶段
软件产业是发展速度最快的产业之一。然而统计表明,在其短短的发展历史中,却充满了项目失败的例子。为了更好地对软件开发成本和开发进度进行有效的控制,必须有合理而准确的软件
嵌入式系统是一种具有特定功能的专用计算机系统。嵌入式系统作为实现设备小型化、智能化和自主知识创新的一个重要元素,目前已广泛运用于国防、工业、交通、能源、信息以及日
随着计算机技术以及多媒体网络通讯技术的兴起和快速发展,数字视频编码技术在人们日常生活中起到的作用也越来越重要。由JVT制定的新一代视频编码标准——H.264/AVC能够提供更
本文分析比较了IPv4和IPv6两种协议的异同点,介绍了IPv6新协议的特点及一些技术规范。并着重研究从IPv4向IPv6过渡的问题。重点分析了目前几种比较成熟的技术:双协议栈技术、隧
RoboCup仿真2D比赛过程需要球队间的整体高效的合作及多个智能体之间默契配合,如阵型策略的调节,才能赢得比赛胜利。但由于通讯的限制,智能体很难在动态实时的比赛环境中得到足
对地球上各种自然现象和景物的虚拟仿真早已经成为计算机仿真领域的热点和难点,海洋占据地球总表面积的70%以上,人类在海洋中从事着各种各样的经济及军事活动,是人类活动的重要