【摘 要】
:
Deep Web是不能被搜索引擎检索到的网络中的资源。Deep Web中包含的信息量比Surface Web中大了几个数量级,并且随着Deep Web中的数据源的个数的不断增长,Deep Web显得越来越
论文部分内容阅读
Deep Web是不能被搜索引擎检索到的网络中的资源。Deep Web中包含的信息量比Surface Web中大了几个数量级,并且随着Deep Web中的数据源的个数的不断增长,Deep Web显得越来越重要。Deep Web中的网页通常是通过向表单中提交查询而返回的,并且结果页面中的数据大都是结构化的。Deep Web网页占据了互联网中全部网页的很大比例,因此自动的抽取Deep Web网页中的数据对于搜索引擎以及数据集成等应用都会带来帮助。同时,从网页中得到的关于现实世界中对象的元数据信息可以应于数据挖掘等学科。本文的主要目的在于提出一种能够自动抽取Deep Web网页中的数据并且能够对数据项进行属性标注的解决方案。该解决方案主要分为两个部分,第一部分是数据抽取器,这部分主要用来抽取网页中的结构化的数据。数据抽取器的核心则是MMDR(改进的数据区域定位)算法,该算法首先将HTML网页转换成DOM结构,然后通过比较相邻子树之间的相似程度来定位具有相同结构的数据。第二个重要的组成部分则是属性标注器。属性标注器主要用来对抽取到的数据记录中的数据项进行标注。属性标注器主要基于条件随机场。条件随机场是一种概率图模型,主要用于标注以及切分等任务。同时属性标注器使用探测与合并算法,使得标注的结果具有更加明确的含义。通过实验结果以及对实验的分析,验证了本文提出的方法能够有效地抽取并标注结果页面中的数据。这些方法不仅能够解决数据抽取及模式识别的问题,而且能够对数据集成提供理论与实际的支持。
其他文献
对文档进行语义哈希是一种比较常见的加速相似性查找的方法。所谓语义哈希就是将文档进行哈希编码,并且使得在语义上相似的文档能够被映射到相近的哈希编码,即具有较短的海明距
随着计算机、网络技术的飞速发展,以及计算机图形学理论的日渐完善,三维模型已经逐渐成为继声音、图像和视频之后的第四种多媒体数据类型。其数量更是呈现爆炸性的增长,由于
随着计算机技术的飞速发展,数字媒体产业的兴起,视频处理技术逐渐成为数字图像处理和数字媒体领域的研究热点。视频分割技术在视频处理技术中占有很重要的地位,是其它一些视
作为二十一世纪教育改革和发展的主旋律之一,教育信息化早已成为一个热门话题。随着高等教育扩招使各高校的在校学生人数成倍增长。如何能够充分利用紧缺的教学资源,提高其使
分类体系作为知识图谱的骨干组成部分,对整个知识图谱的易用性和连通性具有起到决定性的作用。随着知识图谱应用的日益广泛,国内外都不断涌现出优秀的知识图谱项目。如何为知
随着人类基因组计划的顺利完成,不断积累的巨量生物学数据和快速发展的信息学技术,给后基因组时代的生物信息学研究带来了新的挑战。近年来,随着微阵列技术的快速发展,DNA微
三维人体重建是计算机图形学和3D视觉领域一个非常重要的研究课题,同时也是工程领域一个富有挑战性的研究方向。本文提出了一种基于多视图的鲁棒人体三维重建方法。该方法通
随着网络技术的迅速发展,搜索引擎已经成为用户获取网络信息的主要途径。然而,传统的搜索引擎的返回结果比较单调,通常返回与查询相关的网页列表,而忽略了网页中所蕴涵的丰富
随着语义Web的迅速应用与发展,我们需要对海量数据信息进行搜索,而本体是共享概念模型的明确的形式化规范说明,是语义Web应用的基础,其构建的质量直接影响着搜索的查全率和查
资源检索是P2P系统研究的热点之一,无结构化P2P资源查找普遍采用以泛洪机制为主的方法,然而,随着查询请求在网络中转发次数的增加,网络拥塞和带宽浪费严重,查询效率得不到保