Web信息集成中的包装器归纳学习构造

来源 :武汉大学 | 被引量 : 0次 | 上传用户:zhuifeng188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文主要研究信息集成和信息代理系统以及支持遗留系统中的包装器构造,针对手写包装器的诸我弊端,该文要解决的主要问题是如何自动、快速、高效地构造抽取Web信息的包装器.对规范的表式结构的信息源,鉴于存在HTML类包装器对Web页限制过多,表达能力弱,该文重新定义并改进了现有的HLRT类和LR类包装器,并扩展HLRT提出了可分解为HLRT的CHLRT类包装器和扩展属性左右边界为字符串集合的DHLRT类包状器,DHLRT和CHLRT较HLRT增强了表达能力.该文还提出了HLRT类包装器的贪婪学习算法,减少了用于学习的例子数.对不规范的表式结构的信息源,在现有的采用有限状态自动机归纳学习组转换方法的基础上,提出了效率较高的以属性转换机为代表的包装器,并提出了确定属性转换机不确定性的一个有效方案.对层次结构的信息源,提出了基于半结构化数据的模式代数,在此基础上,提出了一种新包装器——模式类包装器及其归纳学习构造算法,该算法比其他归纳学习包装器技术表达能力强,效率高.该文还提出了采用Web页的链接扩展计算Web信息的权威值的算法.该文对多种FWeb信息源在表达能力、效率等方面进行了实验,实结结果表明该文提出的包装器归纳学习构造算法是一种表达能力强,效率高的有效算法.
其他文献
该论文论述了《绩效测试暨金融动态监管系统MeasuringPerformance&SupervisingFinance(MP&SF)》的设计与实现,首先研究了目前银行监管的现状,分析了中国目前银行监管中存在的
信息技术外包(Information Technology Outsourcing,ITO)是一种在软件产 业蓬勃兴起的跨组织的软件开发服务和合作过程。软件开发外包是ITO中最 重要的一部分。外包最早出现在
该文从研究MPI的P4实现和CRR技术出发,分析了在MPI上为达到检查点设置和卷回恢复的正确性和高效性所应该采用的各项技术.在此基础上设计并实现了基于MPICH的P4实现的检查点设
该论文针对清华智能移动机器人THMR-V面向高速公路视觉导航任务中的车道检测问题进行了比较系统的研究,主要完成了以下几个方面的工作;1、研究了视觉导航及视觉处理的基于方
随着信息技术和网络的快速发展,越来越多的信息被存储并在网络上发布,这使得信息共享变得更加简单、方便。数据发布作为一种资源共享手段,为数据交换和信息共享提供便利的同时,也
随着信息技术,尤其是互联网的高速发展,我们面临着越来越大规模数据量所带来的挑战。这些数据不仅是简单的文本数据,更多的是一些如图像、视频等多媒体数据。要实时处理这些
该文介绍了我们开发的一个多媒体支持协同软件开发工具集.我们首先介绍了该工具集的设计思想,然后介绍了其实现技术,包括通信基础工具包、会话管理工具包、对象协同工具包、
该文主要介绍了宽带IP以太网接入系统的结构和功能,并对其中心交换机中的快速以太网交换模块做了详细地介绍,提出了一种采用GT-48310芯片来实现交换功能的设计方案并加以实现
随着现代科技的日新月异,各项依附的软件程序也越来越复杂,这就意味着在软件中会有越来越多潜伏的问题,所以软件测试在整个软件开发周期中的重要性日趋明显。而软件测试的自
该文首先介绍了分布式数据库技术发展的现状和未来,然后提出了野战分布式多媒体数据库系统的体系结构设计,并在安全管理子系统、多媒体数据库的创建与访问,非标准网络下数据