基于视觉信息与DOM树的Deep Web数据获取方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：fjfhmtv

【摘要】

：

近年来，随着互联网信息的迅速膨胀，数据的商业价值不断地被挖掘出来，以提供增值服务，例如评论分析、元搜索、比较购物、大数据应用等，这些都是建立在Deep Web数据获取与数据集成基

【作者】

：

李学环

【机构】

：

苏州大学

【出处】

：

苏州大学

【发表日期】

：

2014年期

【关键词】

：

Deep Web 数据提取数据区域挖掘记录抽取包装器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着互联网信息的迅速膨胀，数据的商业价值不断地被挖掘出来，以提供增值服务，例如评论分析、元搜索、比较购物、大数据应用等，这些都是建立在Deep Web数据获取与数据集成基础之上。随着越来越多与领域相关且具有高质量信息的后台数据库的涌现，Deep Web数据获取与集成依然是个比较热门的研究方向。为了有效地提取目标数据库中的数据元组，以及抽取动态页面中的结构化数据，本文将从以下几个方面进行研究：1）考虑到Deep Web查询接口具有多属性以及存在top-k问题，首先构建了数据空间树模型，并利用启发式信息对空间树进行剪枝。其次，提出了综合查询接口中文本域值的动态选择策略。最后，通过实验验证了本文方案能够有效地提高数据提取效率。2）为了自动定位页面主数据区域，给出了一组启发式特征以及特征的量化方法，提出了基于特征值线性加权的方法进行主数据区域挖掘。3）针对列表页数据记录抽取问题，利用页面的视觉信息与DOM标签树信息计算视觉块的相似度，提出了抽取数据记录的block-regrouping算法，并通过实验验证了该方法的有效性。4）为了缩短具有相同模板的记录抽取时间，提出了面向数据源的包装器生成方法。5）在已有工作基础上设计了的Deep Web数据抽取原型系统，通过在本地模拟数据库与真实Web数据库上的实验验证了本系统的可行性。

其他文献

文本情感分类中的极性转移问题研究

词袋模型是基于机器学习的情感分类任务最为常用的文本表示方法,然而传统的基于词袋模型的文本表示方法存在着一些基础性的问题,尚未得到有效的解决。情感文本中的极性转移现

学位

情感分类极性转移集成学习情感字典

基于划分和层次的聚类算法关键技术研究

随着现代信息技术的发展,通过信息化的资源管理平台,各个行业的管理以及运行效率有了大幅的提升。随着这些信息系统的运行所带来的海量的信息对于行业的管理者来说是非常重要

学位

K-mcans算法最近邻相似度聚类算法资源管理平台数据挖掘

全文检索中索引算法的优化研究

21世纪以来，伴随着信息化产业的迅速发展，越来越多的企业内部信息以数字化方式来存储，如何从海量的信息中准确检索到所需信息，成为一个值得研究的问题。目前，绝大多数信息检索系统

学位

全文检索倒排索引优化

水波优化算法及在车间调度问题中的应用研究

零等待流水车间调度问题(no-wait flow shop scheduling problem,简称NWFSP)广泛的存在于制造业生产系统中,如钢铁轧制、食品加工、化学工业等。NWFSP作为带约束的流水车间调度问题,是一种经典的NP-hard问题。随着问题规模的不断增加,NWFSP就会变得越来越复杂且很难求得最优解。传统的数学方法和已有的调度策略已无法满足实际生产调度中的需求。因此,不论在调度理

学位

零等待流水车间调度问题水波优化算法迭代贪心块移动操作

基于重采样思想的图像主动分类方法研究

图像分类方法是计算机视觉和图像处理领域的重要技术。随着信息技术的快速发展，图像数据呈爆炸式增长。面对海量的图像数据，在分类器学习中如何快速高效地挑选少量高质量的图像

学位

图像分类重采样不确定性代表性局部密度信息

基于小波域的三维数字水印技术研究

随着信息化及多媒体技术的不断发展与提高，越来越多的数字产品进入互联网环境，人们获取信息也越来越容易。于是，网络上的多媒体信息的版权保护问题已成为一个迫切需要解决的问题

学位

三维模型数字水印遗传算法小波变换奇异值分解

汉语逗号与冒号的自动分类识别研究

标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用，是篇章分析研究的一个关键。因此，标点符号识别是一项很有意义的研究工作。本文针对标点符号

学位

篇章分析标点符号识别最大熵模型CRF模型

基于分解的快速图像修复研究

图像修复指在计算机上通过一定的算法填补图像上缺损信息的过程，并要求填补结果达到人眼接受的程度。目前图像修复技术主要分为基于偏微分方程的结构部分修补和基于纹理合成的

学位

修复分解灰色系统纹理合成

利用实名证书及透明加密方法解决虚拟化桌面系统安全问题的研究与设计

在虚拟化桌面技术应用日益增加、功能愈发强大的情况下，其安全问题已然成为阻碍虚拟化桌面发展的一大瓶颈，无法满足客户对安全性的需求。如何确保虚拟化桌面的安全性、让用户可

学位

虚拟化桌面数字证书实名认证透明加密

室内定位方法研究与实现

近几年,基于位置的服务得到了广泛的关注,在诸如行车导航、位置查询、生活服务等领域有着广泛的应用。随着定位技术的不断发展,人们对于室内定位的需求同样与日俱增,并凸显出

学位

指纹定位位置服务信号传播模型室内定位系统稀疏参考标签数据缓存

基于视觉信息与DOM树的Deep Web数据获取方法研究

与本文相关的学术论文