论文部分内容阅读
重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同DeepWeb数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各DeepWeb数据源查询接口映射关系的基础上,提出了一种重复记录识别模型.基于从DeepWeb中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录.实验表明,该重复记录识别模型在Deep