基于Hadoop的Deep Web查询结果自动抽取研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:glad8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展与广泛应用,网络提供给用户的资源与日俱增。特别是不能被传统搜索引擎通过静态链接而获取的海量信息资源规模增长显著,这部分资源称为深层网(Deep Web)。关于Deep Web的研究,是近年来Web数据管理方向的研究热点。Deep Web中的信息是通过在特定查询接口提交查询后,以结果页面的方式显示,对Deep Web查询结果进行抽取,将信息资源进行集成,使其以统一的模式进行存储,才能为用户提供更好的、统一的索引服务。因此,Deep Web查询结果抽取是Deep Web数据集成系统中的关键步骤。本文主要对基于DOM树结构与模板方法相结合的抽取算法进行了深入的研究,主要研究及成果如下:①深入研究比较了几种主要的抽取技术,重点对基于DOM树结构与基于模板的抽取算法进行了详细的介绍,并对各种技术在复杂性、适用范围和自动化程度等方面进行了分析与比较;②综合基于DOM树结构与基于模板抽取算法的优点,提出了基于DOM树结构与模板方法相结合的抽取算法FIME(Filtering, Iterating, Matching, andExtracting)算法,FIME算法在进行DOM树结构比较之前,首先对页面进行预处理操作,使页面遵守XHTML规则,同时清除页面中对于抽取信息无用的标签及部分属性元素,使得页面更精简,以提高后续匹配算法的效率;③针对基于DOM树结构抽取算法中回溯处理页面中冗余迭代项导致匹配算法复杂度高的问题,FIME在进行匹配之前首先对页面中的迭代项进行合并,降低了后续匹配算法的时间复杂度;④结合基于模板抽取算法的思想,FIME将在匹配算法中通过比较DOM树结构而获得的待抽取数据的位置信息作为同一网站页面的模板Wrapper,对所有同源页面进行待抽取信息的自动抽取,而不是对同源结构相似的页面做重复的处理,提高信息抽取的效率和自动化程度。由于Deep Web查询结果页面返回时为海量数据,基于单一节点的抽取算法存在计算瓶颈。目前,开源的分布式系统基础架构Hadoop平台已经非常稳定,因此,本文将FIME算法部署在Hadoop平台中进行实验,实验结果表明FIME算法具有较高的抽取准确率和执行效率。
其他文献
软件缺陷数量是衡量软件质量好坏的一项重要指标,尽早地发现缺陷可以避免在软件开发后期为修改、弥补缺陷造成资源的浪费,保证软件的正常交付。软件缺陷预测模型可用于软件开
随着信息技术与计算机图形学技术的不断进步与发展,越来越多的学者致力于该领域的研究,其中植物建模就是该领域研究的热点之一。利用图形学技术生成虚拟植物,不仅要对植物的形态
查询扩展技术主要用于解决用户提交的查询不能准确描述其自身需求及检索意图的问题。早期的查询扩展技术主要以查询文档集作为扩展词的来源,如今,各种形式的外部扩展资源逐步
近年来,随着互联网技术和多媒体技术的飞速发展,视频数据也呈爆炸式地增长,如何对海量的视频数据分类分析成为一个亟待解决的问题。在对视频分析时,通常先提取视频低层特征,再根据
语音情感识别旨在使用计算机技术来分析说话人的情感状态及变化,进而确定其内心情绪状态或变化,最终实现人机之间更自然、更和谐的交互过程。经过十几年的研究与发展,语音情感识
复杂场景条件下,基于图像的目标搜索与定位系统的性能不仅受目标自身特性的影响,而且受周围场景环境的影响,目标的“非显著”性是导致目标搜索性能降低的主要原因。视觉注意
移动计算设备的飞速发展已经成为转变传统计算设备发展的根本趋势。GPU在图像处理方向应用的同时,也为通用计算提供了良好的运行平台。CUDA是功能完善的图形处理器通用计算编
管道运输凭借其高安全性、低油气损耗、连续平稳、占地面积小、大运输量以及低成本等优点,已经成为了当今油气运输的主要方式。然而,管道一旦发生泄漏事故,极容易造成巨大的经济
计算机取证(computer forensics)是数字取证学科的一个分支,其通过相关的手段对计算机系统或者数字存储介质进行识别、保存、恢复和分析,获取到计算机犯罪罪行的直接证据或者间
射频识别技术(Radio Frequency Identification,RFID)读取信息方便快捷、识别速度快、动态实时通信,可以随时对物体进行追踪监控,是识别物体身份信息的一种重要工具。RFID广泛应