论文部分内容阅读
针对半结构化数据XML在数据清理中的重要性,研究了如何清理XML相似重复数据,主要工作有:提出一种有效的XML相似重复数据清理方法,该方法具有较强的适应性,任何XML相似检测算法都适用于此;给出一种基于树编辑距离的相似检测算法,该算法能有效地检测XML相似重复数据;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法,避免了不必要的树编辑距离计算,降低了相似检测计算的复杂度,提高了运算效率.此工作为研究XML相似重复数据清理打下基础.