Deep Web环境下的结果数据抽取与模式标注的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户：edgeofsky

【摘要】

：

Deep Web是不能被搜索引擎检索到的网络中的资源。Deep Web中包含的信息量比Surface Web中大了几个数量级,并且随着Deep Web中的数据源的个数的不断增长,Deep Web显得越来越

【作者】

：

马骥

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2010年01期

【关键词】

：

属性标注深层Web DOM结构数据抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Deep Web是不能被搜索引擎检索到的网络中的资源。Deep Web中包含的信息量比Surface Web中大了几个数量级,并且随着Deep Web中的数据源的个数的不断增长,Deep Web显得越来越重要。Deep Web中的网页通常是通过向表单中提交查询而返回的,并且结果页面中的数据大都是结构化的。Deep Web网页占据了互联网中全部网页的很大比例,因此自动的抽取Deep Web网页中的数据对于搜索引擎以及数据集成等应用都会带来帮助。同时,从网页中得到的关于现实世界中对象的元数据信息可以应于数据挖掘等学科。本文的主要目的在于提出一种能够自动抽取Deep Web网页中的数据并且能够对数据项进行属性标注的解决方案。该解决方案主要分为两个部分,第一部分是数据抽取器,这部分主要用来抽取网页中的结构化的数据。数据抽取器的核心则是MMDR(改进的数据区域定位)算法,该算法首先将HTML网页转换成DOM结构,然后通过比较相邻子树之间的相似程度来定位具有相同结构的数据。第二个重要的组成部分则是属性标注器。属性标注器主要用来对抽取到的数据记录中的数据项进行标注。属性标注器主要基于条件随机场。条件随机场是一种概率图模型,主要用于标注以及切分等任务。同时属性标注器使用探测与合并算法,使得标注的结果具有更加明确的含义。通过实验结果以及对实验的分析,验证了本文提出的方法能够有效地抽取并标注结果页面中的数据。这些方法不仅能够解决数据抽取及模式识别的问题,而且能够对数据集成提供理论与实际的支持。

其他文献

基于深度学习的文档哈希

对文档进行语义哈希是一种比较常见的加速相似性查找的方法。所谓语义哈希就是将文档进行哈希编码，并且使得在语义上相似的文档能够被映射到相近的哈希编码，即具有较短的海明距

学位

文档检索哈希算法Doc2Vec模型深度神经网络

模型分割在基于内容的三维模型检索中的应用

随着计算机、网络技术的飞速发展,以及计算机图形学理论的日渐完善,三维模型已经逐渐成为继声音、图像和视频之后的第四种多媒体数据类型。其数量更是呈现爆炸性的增长,由于

学位

三维模型检索模型分割预处理特征提取

基于匹配帧的层次化结构的视频分割技术

随着计算机技术的飞速发展,数字媒体产业的兴起,视频处理技术逐渐成为数字图像处理和数字媒体领域的研究热点。视频分割技术在视频处理技术中占有很重要的地位,是其它一些视

学位

视频分割层次化结构带权树的覆盖树与树的相似度

辽宁商贸职业学院教学管理信息系统的设计与实现

作为二十一世纪教育改革和发展的主旋律之一,教育信息化早已成为一个热门话题。随着高等教育扩招使各高校的在校学生人数成倍增长。如何能够充分利用紧缺的教学资源,提高其使

学位

教学管理B/S模式C#语言ASP.NET数据库

基于中文百科的知识图谱分类体系构建研究

分类体系作为知识图谱的骨干组成部分,对整个知识图谱的易用性和连通性具有起到决定性的作用。随着知识图谱应用的日益广泛,国内外都不断涌现出优秀的知识图谱项目。如何为知

学位

分类体系知识图谱整数规划

基于投影聚类的无监督表型区分算法研究与实现

随着人类基因组计划的顺利完成,不断积累的巨量生物学数据和快速发展的信息学技术,给后基因组时代的生物信息学研究带来了新的挑战。近年来,随着微阵列技术的快速发展,DNA微

学位

投影聚类基因表达数据序列数据样本穷举树表型划分

基于多视图的鲁棒人体三维重建

三维人体重建是计算机图形学和3D视觉领域一个非常重要的研究课题,同时也是工程领域一个富有挑战性的研究方向。本文提出了一种基于多视图的鲁棒人体三维重建方法。该方法通

学位

三维重建相机跟踪深度恢复序列对齐模版对齐模版优化

基于本体的命名实体检索的研究与实现

随着网络技术的迅速发展,搜索引擎已经成为用户获取网络信息的主要途径。然而,传统的搜索引擎的返回结果比较单调,通常返回与查询相关的网页列表,而忽略了网页中所蕴涵的丰富

学位

本体命名实体检索维基百科向量空间改进算法

属性探索算法改进及本体构建研究

随着语义Web的迅速应用与发展,我们需要对海量数据信息进行搜索,而本体是共享概念模型的明确的形式化规范说明,是语义Web应用的基础,其构建的质量直接影响着搜索的查全率和查

学位

形式概念分析属性探索算法伪内涵本体构建AECOM

基于语义聚类的无结构化P2P资源查找策略

资源检索是P2P系统研究的热点之一,无结构化P2P资源查找普遍采用以泛洪机制为主的方法,然而,随着查询请求在网络中转发次数的增加,网络拥塞和带宽浪费严重,查询效率得不到保

学位

对等网络资源查找本地聚类语义向量

Deep Web环境下的结果数据抽取与模式标注的研究

其他学术论文