一种XML相似重复数据的清理方法研究

来源 :北京航空航天大学学报 | 被引量 : 0次 | 上传用户:ewen2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对半结构化数据XML在数据清理中的重要性,研究了如何清理XML相似重复数据,主要工作有:提出一种有效的XML相似重复数据清理方法,该方法具有较强的适应性,任何XML相似检测算法都适用于此;给出一种基于树编辑距离的相似检测算法,该算法能有效地检测XML相似重复数据;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法,避免了不必要的树编辑距离计算,降低了相似检测计算的复杂度,提高了运算效率.此工作为研究XML相似重复数据清理打下基础.
其他文献
脆蜜金桔是从普通金柑中选育出的优良金柑属新品种,该果品与普通金柑相比果皮光滑油泡稀少,全果带皮食用,果肉清甜、皮脆,且无刺鼻辛辣味。灵川县从1993年引种示范种植,2000年以来