面向XML文档的数据挖掘技术研究

来源 :北京化工大学 | 被引量 : 3次 | 上传用户:chenfenglianxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着越来越多的数据以XML文档进行存储,在这些数据中隐含着大量的知识信息与各类模式,因此,人们基于XML的数据挖掘应运而生。面向XML的数据挖掘包括对XML结构上的挖掘和对XML内容上的挖掘两种,对XML结构上的数据挖掘是文章的研究重点。在基于单个XML文档结构的关联规则挖掘中,通过对XML文档进行分析研究发现,具有挖掘价值的数据通常是那些出现频度较高的数据或数据类型,因此找出在文档中频繁出现的数据是挖掘的根本任务。由于XML文档可以看作是一个层次树形结构,具体数据也就是树的叶结点,数据的存储必须由根结点沿着某条路径到叶结点而取得,因此,对XML文档的挖掘首先可以考虑通过挖掘其路径而得到。在基于概念层次树和XML的数据挖掘研究中,最终的目的是发现XML文档的频繁子树及频繁子树上结点的有趣关系。因此,必须满足两个条件:一是它的出现必须超过某个预设的阈值;二是该路径上的结点是与挖掘任务相关的。如何判断某些频繁出现的路径是有挖掘价值的,可以为感兴趣的数据引入概念层次树。若某路径上对应的数据不能在概念层次树上找到更为抽象的定义,无法对该数据进行概化操作,则认为其是与挖掘任务关系不大的,执行剪枝操作。使用概念层次树的基本思想是:首先,一个属性的较具体的值被该属性和概念层次树中的父概念所代替;然后,对XML中出现的相同子树进行合并,如果XML中生成的子树数目仍然很大,那么用这个属性的概念层次树中更一般的父概念去替代。
其他文献
多目标优化问题起源于许多实际复杂系统的设计、规划和建模问题,几乎每个重要的现实生活中的决策问题都需要在考虑不同约束的同时处理若干相互冲突的目标,这就大大增加了问题的
无线传感网络集成了传感器、嵌入式计算、网络和无线通信四大技术,被认为是21世纪最重要的技术之一,它将会对人类未来的生活方式产生深远影响。它在军事、医疗、家用等多个领域
目前Web服务技术已经从基础构建阶段向大规模商业应用阶段快速发展。Web服务组合是推动Web服务技术继续发展的技术动力和研究热点,基于BPEL(Business Process Execution Lang
随着IT应用的广泛与深入发展,传统的计算架构难于适应企业急速发展带来的需求。企业需要他们的系统以最低的成本、最高的效率、最出色的可用性为企业提供服务。而事实上,他们
网格资源调度策略是网格计算领域中的关键研究方向之一。在网格计算中,通过采取适合于网格任务特征和资源特点的调度策略,将网格计算中的资源分配给匹配的网格任务,从而使网
Ad Hoc网络是由一组带有无线收发装置的移动终端组成的一个多跳的临时性自治系统。它具有无中心、自组织、拓扑结构动态变化和移动终端资源有限等特点。在分级结构的Ad Hoc网
集群的动态负载均衡是集群计算中的关键技术,如何提高动态负载均衡的性能,一直是集群计算研究的热点。本文研究的集群负载均衡问题,其目的就是在互联网用户数和网络流量呈几何级
多Agent系统在探索大规模分布式开放系统和理解、刻画现实世界中的许多复杂问题都有非常广泛的应用。但在基于多Agent的应用中,有一个亟待解决的困难问题,即在用户需求、Agent
今天P2P应用的带宽已经超过WWW,成为占有互联网带宽最多的部分。对等计算在产业界迅速普及的同时,研究界也及时跟进,在P2P系统的设计方法和发展方面进行了广泛而深入的研究。由
近年来,随着互联网应用的深入,网络蠕虫对计算机系统安全和网络安全的威胁日益严重。传统的基于特征匹配的蠕虫检测方法受限于蠕虫特征的获取,无法检测未知的蠕虫;现有基于行