论文部分内容阅读
随着网络技术的快速发展和普及,Web已经成为一个巨大的信息源集合,拥有着海量信息。Deep Web是由Web中可在线访问的数据库构成,具有信息量大、结构化程度高、领域覆盖全面等特点,Deep Web对以分析挖掘为目标的应用系统有着十分重大的应用价值。随着电子商务、市场情报等应用需求的增长,如何从Deep Web中获取用户感兴趣的信息或数据,以便进行深度的分析从而提供更具价值的服务和应用,比如比价系统、元搜索等,已成为目前研究的热点课题。为了有效利用Deep Web,Deep Web数据集成应运而生,包括数据获取、数据抽取和数据整合等环节,其中Deep Web数据抽取是其关键环节。 由于Deep Web的海量、异构等特点使得Deep Web数据抽取成为一项极具挑战的工作,其主要困难有:(1)Deep Web涉及领域广,数据量大,要实现Deep Web数据的自动抽取。(2)不同Deep Web页面差距较大,抽取方法要有一定的适应性,确保其抽取的正确率和效率。 本文针对Deep Web中包含半结构化数据的列表页面,利用页面的视觉信息和树匹配技术,实现了此类Web页面中数据的全自动抽取,其主要贡献和创新有以下两点: (1)列表页面中数据记录的识别和抽取 Web页面的设计是为了方便用户浏览,有着丰富的视觉信息,比如字体、布局、背景等。为了方便利用页面的视觉信息,我们给出了页面的表示模型——视觉块树,相较于VIPS等页面分块技术,这里没有使用任何假设和启发式规则,更能客观的反应页面信息。 为了抽取数据记录,我们首先识别出数据区域,这里结合列表页面的视觉特征,给出了数据区域识别算法,相较于传统方法,此算法有较强的适应性。对于数据区域下数据记录的识别,本文采用一种序列划分的策略,其基本思想是先对数据区域树下子树聚类,根据聚类的结果信息对子树序列进行划分,过滤掉噪声节点从而确定每条数据记录的边界,最终实现数据区域下数据记录的抽取工作。 (2)基于树匹配技术实现数据项对齐 数据项对齐是指将由同一模板生成的数据记录中相同语义项放在关系表的同一列下,即为数据记录生成关系模式。本文将每条数据记录看为一棵树,从而把数据记录模式生成看为多序列对齐问题。首先给出了树匹配的一种严格模式;然后采用简单树匹配(Simple Tree Matching,简称STM)算法得到两棵树的一个最大匹配,由于采用了视觉块树这种数据结构,能对STM进行一些剪枝操作,可使算法复杂度由O(n2)几乎降为线性;最后基于STM给出了模式生成算法。