论文部分内容阅读
随着互联网技术的快速发展与广泛应用,网络提供给用户的资源与日俱增。特别是不能被传统搜索引擎通过静态链接而获取的海量信息资源规模增长显著,这部分资源称为深层网(Deep Web)。关于Deep Web的研究,是近年来Web数据管理方向的研究热点。Deep Web中的信息是通过在特定查询接口提交查询后,以结果页面的方式显示,对Deep Web查询结果进行抽取,将信息资源进行集成,使其以统一的模式进行存储,才能为用户提供更好的、统一的索引服务。因此,Deep Web查询结果抽取是Deep Web数据集成系统中的关键步骤。本文主要对基于DOM树结构与模板方法相结合的抽取算法进行了深入的研究,主要研究及成果如下:①深入研究比较了几种主要的抽取技术,重点对基于DOM树结构与基于模板的抽取算法进行了详细的介绍,并对各种技术在复杂性、适用范围和自动化程度等方面进行了分析与比较;②综合基于DOM树结构与基于模板抽取算法的优点,提出了基于DOM树结构与模板方法相结合的抽取算法FIME(Filtering, Iterating, Matching, andExtracting)算法,FIME算法在进行DOM树结构比较之前,首先对页面进行预处理操作,使页面遵守XHTML规则,同时清除页面中对于抽取信息无用的标签及部分属性元素,使得页面更精简,以提高后续匹配算法的效率;③针对基于DOM树结构抽取算法中回溯处理页面中冗余迭代项导致匹配算法复杂度高的问题,FIME在进行匹配之前首先对页面中的迭代项进行合并,降低了后续匹配算法的时间复杂度;④结合基于模板抽取算法的思想,FIME将在匹配算法中通过比较DOM树结构而获得的待抽取数据的位置信息作为同一网站页面的模板Wrapper,对所有同源页面进行待抽取信息的自动抽取,而不是对同源结构相似的页面做重复的处理,提高信息抽取的效率和自动化程度。由于Deep Web查询结果页面返回时为海量数据,基于单一节点的抽取算法存在计算瓶颈。目前,开源的分布式系统基础架构Hadoop平台已经非常稳定,因此,本文将FIME算法部署在Hadoop平台中进行实验,实验结果表明FIME算法具有较高的抽取准确率和执行效率。