论文部分内容阅读
随着越来越多的数据以XML文档进行存储,在这些数据中隐含着大量的知识信息与各类模式,因此,人们基于XML的数据挖掘应运而生。面向XML的数据挖掘包括对XML结构上的挖掘和对XML内容上的挖掘两种,对XML结构上的数据挖掘是文章的研究重点。在基于单个XML文档结构的关联规则挖掘中,通过对XML文档进行分析研究发现,具有挖掘价值的数据通常是那些出现频度较高的数据或数据类型,因此找出在文档中频繁出现的数据是挖掘的根本任务。由于XML文档可以看作是一个层次树形结构,具体数据也就是树的叶结点,数据的存储必须由根结点沿着某条路径到叶结点而取得,因此,对XML文档的挖掘首先可以考虑通过挖掘其路径而得到。在基于概念层次树和XML的数据挖掘研究中,最终的目的是发现XML文档的频繁子树及频繁子树上结点的有趣关系。因此,必须满足两个条件:一是它的出现必须超过某个预设的阈值;二是该路径上的结点是与挖掘任务相关的。如何判断某些频繁出现的路径是有挖掘价值的,可以为感兴趣的数据引入概念层次树。若某路径上对应的数据不能在概念层次树上找到更为抽象的定义,无法对该数据进行概化操作,则认为其是与挖掘任务关系不大的,执行剪枝操作。使用概念层次树的基本思想是:首先,一个属性的较具体的值被该属性和概念层次树中的父概念所代替;然后,对XML中出现的相同子树进行合并,如果XML中生成的子树数目仍然很大,那么用这个属性的概念层次树中更一般的父概念去替代。