基于视觉信息与DOM树的Deep Web数据获取方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:fjfhmtv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网信息的迅速膨胀,数据的商业价值不断地被挖掘出来,以提供增值服务,例如评论分析、元搜索、比较购物、大数据应用等,这些都是建立在Deep Web数据获取与数据集成基础之上。随着越来越多与领域相关且具有高质量信息的后台数据库的涌现,Deep Web数据获取与集成依然是个比较热门的研究方向。为了有效地提取目标数据库中的数据元组,以及抽取动态页面中的结构化数据,本文将从以下几个方面进行研究:1)考虑到Deep Web查询接口具有多属性以及存在top-k问题,首先构建了数据空间树模型,并利用启发式信息对空间树进行剪枝。其次,提出了综合查询接口中文本域值的动态选择策略。最后,通过实验验证了本文方案能够有效地提高数据提取效率。2)为了自动定位页面主数据区域,给出了一组启发式特征以及特征的量化方法,提出了基于特征值线性加权的方法进行主数据区域挖掘。3)针对列表页数据记录抽取问题,利用页面的视觉信息与DOM标签树信息计算视觉块的相似度,提出了抽取数据记录的block-regrouping算法,并通过实验验证了该方法的有效性。4)为了缩短具有相同模板的记录抽取时间,提出了面向数据源的包装器生成方法。5)在已有工作基础上设计了的Deep Web数据抽取原型系统,通过在本地模拟数据库与真实Web数据库上的实验验证了本系统的可行性。
其他文献
词袋模型是基于机器学习的情感分类任务最为常用的文本表示方法,然而传统的基于词袋模型的文本表示方法存在着一些基础性的问题,尚未得到有效的解决。情感文本中的极性转移现
随着现代信息技术的发展,通过信息化的资源管理平台,各个行业的管理以及运行效率有了大幅的提升。随着这些信息系统的运行所带来的海量的信息对于行业的管理者来说是非常重要
21世纪以来,伴随着信息化产业的迅速发展,越来越多的企业内部信息以数字化方式来存储,如何从海量的信息中准确检索到所需信息,成为一个值得研究的问题。目前,绝大多数信息检索系统
零等待流水车间调度问题(no-wait flow shop scheduling problem,简称NWFSP)广泛的存在于制造业生产系统中,如钢铁轧制、食品加工、化学工业等。NWFSP作为带约束的流水车间调度问题,是一种经典的NP-hard问题。随着问题规模的不断增加,NWFSP就会变得越来越复杂且很难求得最优解。传统的数学方法和已有的调度策略已无法满足实际生产调度中的需求。因此,不论在调度理
图像分类方法是计算机视觉和图像处理领域的重要技术。随着信息技术的快速发展,图像数据呈爆炸式增长。面对海量的图像数据,在分类器学习中如何快速高效地挑选少量高质量的图像
随着信息化及多媒体技术的不断发展与提高,越来越多的数字产品进入互联网环境,人们获取信息也越来越容易。于是,网络上的多媒体信息的版权保护问题已成为一个迫切需要解决的问题
标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用,是篇章分析研究的一个关键。因此,标点符号识别是一项很有意义的研究工作。本文针对标点符号
图像修复指在计算机上通过一定的算法填补图像上缺损信息的过程,并要求填补结果达到人眼接受的程度。目前图像修复技术主要分为基于偏微分方程的结构部分修补和基于纹理合成的
在虚拟化桌面技术应用日益增加、功能愈发强大的情况下,其安全问题已然成为阻碍虚拟化桌面发展的一大瓶颈,无法满足客户对安全性的需求。如何确保虚拟化桌面的安全性、让用户可
近几年,基于位置的服务得到了广泛的关注,在诸如行车导航、位置查询、生活服务等领域有着广泛的应用。随着定位技术的不断发展,人们对于室内定位的需求同样与日俱增,并凸显出