【摘 要】
:
集成Deep Web中的数据信息是一项非常重要的工作,在这项工作中常会遇到信息冗余和记录去重问题,它们常成为集成工作成败的关键。估计web数据库重叠率,可以优化信息冗余和记录
论文部分内容阅读
集成Deep Web中的数据信息是一项非常重要的工作,在这项工作中常会遇到信息冗余和记录去重问题,它们常成为集成工作成败的关键。估计web数据库重叠率,可以优化信息冗余和记录去重工作,减少集成的盲目性。本论文主要包含三部分内容:1.提出了在理想情况下的web数据库重叠估计方法,包括一种朴素方法和在朴素方法基础上的改进方法。朴素方法研究覆盖了从采样到估计的整个流程,但忽略了web的复杂性;改进方法通过高频字采样,提高采样和估计效率。2.针对理想情况下的web数据库重叠估计方法省略掉的web数据库记录匹配问题,提出了web数据库重叠估计中的实体识别方法。根据Deep Web查询接口和返回记录的特点,引入领域知识和预处理,计算记录相似度,从工程的角度降低识别复杂度,提高识别准确性和效率。3.为了进一步提高重叠估计的适应性,提出了web数据库重叠估计的修正方法,通过回归分析建立数据库相似度和估计偏差之间的关系,利用数据库相似度预测估计偏差,提供真实值可能存在的范围。本文进行了大量的实验,验证提出的各种理论和方法,同时提出了有待进一步深入解决的问题,展望该领域科研发展的方向和前景。
其他文献
互联网的飞速发展促进了信息处理技术地不断进步。面向查询的多文档自动文摘技术任务是基于特定的查询,将大量的查询结果文档中的相关内容浓缩为一个既与查询相关,并且内容简
网格,互联网时代的又一创举,它被广泛认为能够取代互联网而成为下一代网络技术。服务网格通过服务的形式为用户提供资源共享。目前,网格上广泛存在的信息格式的异构性、信息
随着RFID产业潜力的不断深入,应用的范围遍及制造、物流、医疗、运输、零售、国防等各种领域。中间件(Middleware)作为RFID运作的中枢,也越来越多的受到人们的关注。RFID中间
近年来,随着云计算的快速发展,越来越多的用户选择将应用部署在云数据中心内,使得云数据中心中管理的虚拟机的数目日趋庞大。如何为这些虚拟机选择目标服务器,即虚拟机放置问
当今的舰船上分布着大量的计算机系统,这些分布式的系统相互合作以实现舰船的自动化指挥控制功能。系统上运行的软件决定了系统具体支持的功能,而舰载系统又面临着适时更改软
数字视频是多媒体时代信息传播的理想载体,但海量的视频数据需要进行压缩编码后才能有效地传输和处理。针对不同的应用领域,工业界和国际标准化组织制定了多种视频编码标准。
目前面向对象技术广泛应用于软件开发的各个领域,面向对象编程技术较好的解决了单个业务逻辑的编程问题,但对于横切关注点问题以及如何响应需求的多变性,仍有其固有的局限性。面
Linux是多用户、多任务的操作系统,它不仅继承了Unix系统功能强大、性能稳定的特点,还在许多方面超过了Unix,比如简单高效的进程调度,支持内核线程、虚拟文件系统、模块机制,
图像拼接就是采用特定的算法将一组具有重叠区域的图像综合成一幅大视角的无缝高分辨率图像的一种技术。这种自动生成全景图像的技术引起了计算机图形学、机器视觉等领域中学