论文部分内容阅读
随着Web数据库的不断增长,通过查询接口访问获得以HTML页面形式动态呈现的Web资源逐渐成为信息获取的主要手段,有效获取并集成分布在Web上的各数据库资源具有重要的现实意义与广阔的应用前景。本文以Web数据库资源获取与集成为出发点,针对Web数据的异构、动态、多源特性导致现有Web数据抽取方法抽取准确率低、抽取效率不高、无法集成多源数据等问题,提出了基于视觉的Web数据抽取、Web数据模板构造和多源Web数据融合等改进方法,论文的主要工作如下:(1)根据Web数据记录视觉特征,研究查询结果页面数据记录的结构相似性和文本组织形式多样性,针对现有Web数据抽取方法无法准确抽取Web数据记录,提出了基于视觉与DOM树的Web数据定位与抽取(Vision and DOM-tree based Web data Location and Extraction,VDLE)方法。该方法引入视觉块重心偏移量定位数据区域,利用谱聚类算法定位数据区域内结构相似的节点簇,并结合文本组织多样性对数据记录进行定位。实验结果表明,VDLE的抽取结果查准率为99%,比基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deep Web,D-EEM)查准率提高8.51%,比VIDE查准率提高4.32%;VDLE的抽取结果查全率为98.75%,较D-EEM查全率提高13.33%,较VIDE查全率提高8.17%。VDLE能够准确抽取格式一致的数据记录,但无法抽取结构不同的数据记录,且不能过滤数据标题属性项内部的噪声信息。(2)在提出VDLE方法的基础上,通过分析查询结果页面数据记录属性项的共有特征,提出一种非线性拟合Web数据模板构造(Nonlinear Fitting Web data Template Construction,NFTC)方法。该方法以数据记录的视觉、结构、文本、语义特征为出发点,引入非线性数据拟合思想构造Web数据模板以解决VDLE无法抽取异构数据记录的问题,同时分析数据标题的文本特征并对其DOM子树进行剪枝以解决VDLE无法过滤数据标题属性项噪声问题。实验结果表明,利用NFTC构造的模板进行抽取获得的结果查准率为100%,比ViDE提高5.32%,比D-EEM提高9.51%,比VDLE提高1%;查全率为100%,比ViDE提高9.42%,比D-EEM提高14.58%,比VDLE提高1.25%;平均抽取时间为55.15ms,较ViDE降低69%,较D-EEM降低44%,较VDLE降低56%。(3)针对不同Web数据库抽取数据的集成问题,在研究现有词汇语义相似性度量方法的基础上,提出一种多层次语义度量数据融合(Multilevel semantic measurement data fusion,MSDF)算法。首先,根据义原的密度、深度以及信息量改进基于知网的语义相似性度量方法;然后,引入归一化谷歌距离改进基于搜索引擎的语义相关性度量方法,同时利用层次分析法融合基于词典与搜索引擎的语义相似性与相关性度量结果,将抽取Web数据映射为统一的结构化形式以解决多源Web数据融合问题。实验结果表明,MSDF的准确率为98.5%,比基于知网的相似度算法提高82.3%,比基于搜索引擎的相关度算法提高16.5%;MSDF的融合率为97%,比基于知网的相似性度量方法提高76%,比基于搜索引擎的相关性度量方法提高12.5%。(4)利用本文的研究成果,设计、开发了Web数据抽取系统,实现了准确、高效的Web数据抽取与集成。