基于视觉特征的Web信息抽取技术的研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:greatbear1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展及其应用的深入,Web俨然已经成为全球最大的虚拟资料库,可用的信息正呈指数级增长。如何有效地利用这些信息成为人们的重要研究课题,因此出现了大量以Web作为信息源的技术和应用,其中Web的信息抽取技术在近年来引起了越来越多的研究者的关注。由于Web页面的内容缺乏严格规范的语法结构,尤其是半结构化页面,所以传统的自然语言处理技术并不能很好地适用于Web信息抽取,另外Web页面被浏览器识别、解释和显示并供用户查看和理解,其中包含了大量的视觉特征,如果把Web页面的这种视觉信息应用于信息抽取,就可以避免使用复杂的语言学知识。因此,如何将基于自然语言理解方式和Web页面的视觉特征有效地结合起来克服各自的缺点,混合使用各种方法进行信息抽取是本文研究的重点。本文结合自然语言处理技术和HTML页面视觉特征在信息抽取中的应用,进行了以下研究工作:1.提出了一种基于视觉特征的数据区域抽取(DREV:Data Region Extractionbased on Vision)算法。该方法利用自然语言处理中命名实体识别技术对文档进行标注来提供简单的语义信息,然后在此基础上根据网页的视觉特征规则,使用对块的实体密度(Entity Density)分析,确定待抽取的数据区域。2.提出了一种基于约束满足的记录抽取(RECS:Records Extraction based onConstraint Satisfaction)算法。该方法对数据区域内的实体进行进一步分析,并借鉴约束满足问题(CSP:Constraint Satisfaction Problem)的思想,提出针对半结构化页面的信息抽取的约束规则,对实体进行分类和提取。3.研究了Sheffield大学的自然语言处理平台Gate,并在此基础上设计和实现了一个基于上述原理的数据抽取原型系统VisonWebIE。经验证该系统达到了预期的效果,提高了召回率、准确率和对页面变化的适应能力。
其他文献
公钥基础设施(Public Key Infrastructure,PKI)理论解决了信息安全领域的信息加密、密钥交换、数字签名和匿名双向认证等诸多问题,目前已在商业上得到了广泛的应用。然而,PKI
空间信息可视化技术的发展,为地质学各个领域的研究提供了一个新的方法和研究平台,为解决各种地质问题开辟了一个新的研究方向。虚拟现实是21世纪计算机信息科学研究的热点之一
全局照明计算是一种重要的基于物理光学原理的计算机图像合成方法.在光滑的平面上,它也是特别重要的,因为它以光滑材料特征的正确感知为条件.这篇论文主要集中于在光滑平面上
网格技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网格虚拟环境上的高性能资源共享和协同工作,消除信息孤岛和资源孤岛。网格不仅提供利用强大计算机解决巨大挑
随着嵌入式的应用领域不断扩展,对嵌入式系统的要求越来越高。有的领域需要具有强大的浮点运算能力,有的领域有低功耗的要求,还有的领域需要提供多种硬件接口或多种联网方式。为
随着社会经济的发展和科学技术的进步,特别是城市人口的急剧增加和城市化进程的飞速发展,高层建筑和大空间场所越来越多,火灾的防范和发现变得越来越紧迫。传统型火灾探测技术在
直流电机调速系统因精度高、调速范围广、执行机构控制简单等优点在对调速性能要求较高的场合得到了广泛应用。目前,随着新型大功率电力电子器件IGBT技术的发展和PWM调制调速
塘沽地热试验研究中心在该系统上马之前对于地热水使用的管理方式,信息来源一般依据管理人员入户查询并上报进行管理。人工进行管理,数据的准确性得不到保证。随着企事自身实
随着计算机技术和医疗信息化的不断发展,健康检查系统得到了广泛应用,目前大多数健康检查系统都没有专门的报告报表处理工具,而作为检查结果的最终展示,健康检查报告和报表的地位又十分重要。健康检查报告报表生成系统能够在短时间内完成多种查询、统计分析以及各种报告报表的自动生成和打印。因此,能够提高工作效率、节省人力资源、方便资料的存储和管理,使信息和结论更具科学性。液基薄层细胞学检测技术(Thin-Cyto
近几年,大量丰富而有价值的数据在网络中趋于深化,隐藏在查询接口后面的在线数据库中。这些“Deep Web”数据与基于静态网页的“Surface Web”相比,可以提供大量动态生成的网页