论文部分内容阅读
随着Web数据和数据集成技术的飞速发展,半结构化数据越来越引起人们的重视。半结构化数据是指那些具有隐舍结构或结构不严谨的自描述数据。它不同于传统数据中的模式,它是先有数据后有模式,而且半结构化数据的模式是用于描述数据的结构信息而不是对数据结构进行强制约束。为此.半结构化数据的模式发现就成为知识发现的首要步骤。采用了层次数据的概念。提出了分层事务数据库和“累加变换”的计数原则,井据此提出了基于SHDP—tree树结构的SHDP-mine算法和挖掘出半结构、层次数据的基本模式。最后从理论和实验分析和验证了它的