【摘 要】
:
随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结
论文部分内容阅读
随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字符、简写与全称混合等问题.这给识别重复记录带来了很大不便,导致传统的去重算法无法达到很好的效果.为此,提出了一种面向deep Web结果整合的重复记录识别模型.在该模型中,提出了一种基于编辑距离的改进算法,基于该算法实现字符串匹配;通过构建属性匹配图,并采用二次确认机制实现识别重复记录.应用该模型,既提高了识别效率又保证了识别精确度,并通过实验证明了提出的算法和模型的可行性.
其他文献
本文介绍了绍油车尾气的四种有害排放物,并探讨其同时去除的可能性,在此基础上介绍了贵金属催化剂和非贵金属催化剂,研究了钙钛矿性氯化物四效催化的性能,从钙铁矿型氧化物的
简要叙述了小浪底反调节电站220 kV黄霞2线路断路器手动分闸后自动重合的故障现象,针对现象进行深入分析.通过检查装置接线、分析电气控制回路、实际模拟试验等手段,成功得出
提出了基于堆栈结构的开放式控制器体系结构,并给出该体系结构的总体框架;在开放式控制器的扩展过程中,模块化设计和配置系统是整个系统设计的关键,有效的通信机制是系统运作
目前随着中国经济条件的日益好转,人们对生活水平的要求进一步提高,铜管作为给水管材应用到建筑工程中的实例日渐增多.本文就建筑用铜管特点及施工工艺进行论述.
本文通过对桂林市施工工地噪声监测结果分析,讨论了建筑施工噪声存在的问题及成因,并提出一些相应的措施和建议,以便环保主管部门对所辖区内施工工地的管理.
近年来,随着人们生活水平的提高、科学技术的发展,先进测试技术的不断推出,促使人们用各种现代测试手段,对药品、食品中有毒残留物进行监测,保障人民的身体健康.世界各国卫生
介绍了真空污物收集系统的布置、作用原理及在25K型改造车上的加装方案.
本文简要分析了西北地区高速公路沥青混凝土路面车辙的起因,并提出了预防沥青混凝土路面产生车辙的建议。
This paper briefly analyzes the causes of rutting of asphalt
突尼斯EI-F油田位于突尼斯西南部,油藏埋藏深,且上部地层发育有良好的裂缝和断层,极易发生大规模的漏失,通过本地区的钻井施工,总结出在大规模漏失的情况下的安全钻井措施.
结合工作实践,通过建筑工地日常消防安全管理、监督检查等分析研究,就建筑工地的消防安全管理措施进行了探讨。
Combining with the practice of work, through the daily f