基于视觉信息和树匹配的Deep Web数据抽取问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：huangxz

【摘要】

：

随着网络技术的快速发展和普及，Web已经成为一个巨大的信息源集合，拥有着海量信息。Deep Web是由Web中可在线访问的数据库构成，具有信息量大、结构化程度高、领域覆盖全面等特点

【作者】

：

凡思武

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2015年期

【关键词】

：

网络数据全自动抽取视觉信息树匹配算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的快速发展和普及，Web已经成为一个巨大的信息源集合，拥有着海量信息。Deep Web是由Web中可在线访问的数据库构成，具有信息量大、结构化程度高、领域覆盖全面等特点，Deep Web对以分析挖掘为目标的应用系统有着十分重大的应用价值。随着电子商务、市场情报等应用需求的增长，如何从Deep Web中获取用户感兴趣的信息或数据，以便进行深度的分析从而提供更具价值的服务和应用，比如比价系统、元搜索等，已成为目前研究的热点课题。为了有效利用Deep Web，Deep Web数据集成应运而生，包括数据获取、数据抽取和数据整合等环节，其中Deep Web数据抽取是其关键环节。　　由于Deep Web的海量、异构等特点使得Deep Web数据抽取成为一项极具挑战的工作，其主要困难有:(1)Deep Web涉及领域广，数据量大，要实现Deep Web数据的自动抽取。(2)不同Deep Web页面差距较大，抽取方法要有一定的适应性，确保其抽取的正确率和效率。　　本文针对Deep Web中包含半结构化数据的列表页面，利用页面的视觉信息和树匹配技术，实现了此类Web页面中数据的全自动抽取，其主要贡献和创新有以下两点:　　(1)列表页面中数据记录的识别和抽取　　Web页面的设计是为了方便用户浏览，有着丰富的视觉信息，比如字体、布局、背景等。为了方便利用页面的视觉信息，我们给出了页面的表示模型——视觉块树，相较于VIPS等页面分块技术，这里没有使用任何假设和启发式规则，更能客观的反应页面信息。　　为了抽取数据记录，我们首先识别出数据区域，这里结合列表页面的视觉特征，给出了数据区域识别算法，相较于传统方法，此算法有较强的适应性。对于数据区域下数据记录的识别，本文采用一种序列划分的策略，其基本思想是先对数据区域树下子树聚类，根据聚类的结果信息对子树序列进行划分，过滤掉噪声节点从而确定每条数据记录的边界，最终实现数据区域下数据记录的抽取工作。　　(2)基于树匹配技术实现数据项对齐　　数据项对齐是指将由同一模板生成的数据记录中相同语义项放在关系表的同一列下，即为数据记录生成关系模式。本文将每条数据记录看为一棵树，从而把数据记录模式生成看为多序列对齐问题。首先给出了树匹配的一种严格模式;然后采用简单树匹配(Simple Tree Matching，简称STM)算法得到两棵树的一个最大匹配，由于采用了视觉块树这种数据结构，能对STM进行一些剪枝操作，可使算法复杂度由O(n2)几乎降为线性;最后基于STM给出了模式生成算法。

其他文献

基于UML的构件可重用性度量的研究与实现

软件复用可在软件开发过程中避免重复劳动,被视为解决软件危机,提高软件生产率和质量的现实可行途径。它作为软件工程的主要研究课题之一,被认为是使软件开发真正走上工程化

学位

可重用性软件度量软件构件基于构件开发统一建模语言

基于共享内存多通道网络通信的集群通讯技术研究

在过去几十年里,大规模和超大规模并行性集群处理取得长足进展,同时由于各种原因,这些机器多采用分布主存或分布式共享主存结构,各厂商开发了针对特定硬件平台的消息传递包或

学位

多通道网络通信集群通信共享内存消息传递包并行处理Myrinet网络

基于本体的web服务匹配机制的研究与实现

Web Service的主要目标是在现有的各种异构平台的基础上构筑一个通用的、与平台无关、语言无关的技术层,各种不同平台上的应用依靠这个技术层来实施彼此的连接和集成。为了让

学位

语义本体OWL-S描述逻辑概念差异性服务匹配模型

支持可靠服务组合的中间件相关技术研究和实现

随着互联网技术与应用的迅速发展,Web服务技术的应用已经成为一种趋势,Web服务将传统的功能封装成跨越平台的统一接口提供给用户;另一方面业务功能的复杂化,从B2C到B2B业务的

学位

Web服务组合可靠性事务处理中间件WS-CWS-T2PC

基于MS.Net的图形界面自动测试框架的设计与实现

根据最新的研究发现，软件测试的成本已经占到了整个开发成本的40％到60％。人们希望能降低测试成本，同时进一步缩短软件的开发周期，测试人员也希望摆脱简单重复的测试工作。由于在一

学位

MS.Net图形界面自动测试框架软件测试MicroRobert应用程序

数据挖掘在蛋白质二级结构预测中的应用

当今，生物科学技术迅猛发展，无论从数量上还是质量上，都极大地丰富了生物科学的数据资源。计算机技术和网络技术日益渗透到生物科学的各个领域，一门崭新的，拥有巨大发展潜力的学科

学位

数据挖掘蛋白质二级结构结构预测关联规则

面向闪存设备的对象文件系统

随着高性能计算和互联网技术的不断发展，数据的规模出现快速增长，系统面临的数据存储和管理需求也越来越高。在计算机系统中，现在的处理器的性能得到快速提高，但存储能力却成为了

学位

闪存存储器对象文件系统计算机技术

基于P2P流媒体分发系统的直播和缓存技术的研究

流媒体技术的出现使得多媒体通过网络从媒体服务器上向终端的持续实时传输成为可能。目前的大部分流媒体软件是基于C/S模式，服务器端的负载与流量等瓶颈制约了系统的扩展性和

学位

P2P网络流媒体分发系统媒体服务器IP组播视频监控系统前缀缓存流行度缓存

基于粗糙集理论的知识获取研究及应用

知识获取就是通过一定的技术手段从海量数据库中发现潜在的、有价值的信息,并以此为人们的行为提供辅助决策。现实生活中的数据不可避免地存在重复、遗漏和不一致等问题,给知

学位

粗糙集知识获取数据预处理属性约简决策规则提取可辨识矩阵

虚拟环境下仿生机器人的情感研究

随着网络技术和计算机图形学的不断发展,3D游戏已经越来越受到广大青少年的喜爱,各种各样的游戏层出不穷,如“魔兽世界”、“孤岛惊魂”等。然而,目前我国的网络游戏市场却基

学位

人工智能有限状态技术非确定性仿生机器人

基于视觉信息和树匹配的Deep Web数据抽取问题研究

其他学术论文