论文部分内容阅读
随着互联网的快速发展,XML正在得到越来越广泛的应用。XML文档作为一种新的数据格式,针对XML文档的数据挖掘研究也成为了研究的热点。由于XML文档具有半结构化的特点,包含内容特征和结构特征。如何将XML文档的内容特征和结构特征结合起来,进行XML文档的分析挖掘,是研究的重点之一。
本文重点研究了两种XML文档分类方法:
1)基于SINM模型的XML文本分类方法;
2)基于频繁子树SLVM模型的XML文本分类方法。
SLVM模型是向量空间模型的一种扩展,基本思想从XML文档中提取结构单元,再从每个结构单元中的提取文本信息;将XML文档中的每个结构单元中的文本信息看作一个一维向量;整个XML文档则被建模为一组向量,用一个矩阵表示;从而达到将XML文档的结构分析与文本内容分析相结合的目的。本文首先研究了以元素、路径作为SLVM模型的结构单元的XML文本分类方法。更进一步,本文尝试从XML数据集中提取闭合频繁子树作为SLVM结构单元,挖掘更复杂的结构信息,提出了基于频繁子树SLVM模型的XML文本分类方法。
同时,本文还研究了XML文档的相似度计算方法;讨论了XML文档结构单元之间的关系矩阵的计算方法;使用支持向量机算法(SVM)对大规模XML文档进行分类。使用上述两种方法,在INEX2007和INEX2008测评的XML文档分类任务上,都取得了较好的成绩。