基于模板与视觉特征的Web数据抽取技术研究

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:fankyxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web数据库的不断增长,通过查询接口访问获得以HTML页面形式动态呈现的Web资源逐渐成为信息获取的主要手段,有效获取并集成分布在Web上的各数据库资源具有重要的现实意义与广阔的应用前景。本文以Web数据库资源获取与集成为出发点,针对Web数据的异构、动态、多源特性导致现有Web数据抽取方法抽取准确率低、抽取效率不高、无法集成多源数据等问题,提出了基于视觉的Web数据抽取、Web数据模板构造和多源Web数据融合等改进方法,论文的主要工作如下:(1)根据Web数据记录视觉特征,研究查询结果页面数据记录的结构相似性和文本组织形式多样性,针对现有Web数据抽取方法无法准确抽取Web数据记录,提出了基于视觉与DOM树的Web数据定位与抽取(Vision and DOM-tree based Web data Location and Extraction,VDLE)方法。该方法引入视觉块重心偏移量定位数据区域,利用谱聚类算法定位数据区域内结构相似的节点簇,并结合文本组织多样性对数据记录进行定位。实验结果表明,VDLE的抽取结果查准率为99%,比基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deep Web,D-EEM)查准率提高8.51%,比VIDE查准率提高4.32%;VDLE的抽取结果查全率为98.75%,较D-EEM查全率提高13.33%,较VIDE查全率提高8.17%。VDLE能够准确抽取格式一致的数据记录,但无法抽取结构不同的数据记录,且不能过滤数据标题属性项内部的噪声信息。(2)在提出VDLE方法的基础上,通过分析查询结果页面数据记录属性项的共有特征,提出一种非线性拟合Web数据模板构造(Nonlinear Fitting Web data Template Construction,NFTC)方法。该方法以数据记录的视觉、结构、文本、语义特征为出发点,引入非线性数据拟合思想构造Web数据模板以解决VDLE无法抽取异构数据记录的问题,同时分析数据标题的文本特征并对其DOM子树进行剪枝以解决VDLE无法过滤数据标题属性项噪声问题。实验结果表明,利用NFTC构造的模板进行抽取获得的结果查准率为100%,比ViDE提高5.32%,比D-EEM提高9.51%,比VDLE提高1%;查全率为100%,比ViDE提高9.42%,比D-EEM提高14.58%,比VDLE提高1.25%;平均抽取时间为55.15ms,较ViDE降低69%,较D-EEM降低44%,较VDLE降低56%。(3)针对不同Web数据库抽取数据的集成问题,在研究现有词汇语义相似性度量方法的基础上,提出一种多层次语义度量数据融合(Multilevel semantic measurement data fusion,MSDF)算法。首先,根据义原的密度、深度以及信息量改进基于知网的语义相似性度量方法;然后,引入归一化谷歌距离改进基于搜索引擎的语义相关性度量方法,同时利用层次分析法融合基于词典与搜索引擎的语义相似性与相关性度量结果,将抽取Web数据映射为统一的结构化形式以解决多源Web数据融合问题。实验结果表明,MSDF的准确率为98.5%,比基于知网的相似度算法提高82.3%,比基于搜索引擎的相关度算法提高16.5%;MSDF的融合率为97%,比基于知网的相似性度量方法提高76%,比基于搜索引擎的相关性度量方法提高12.5%。(4)利用本文的研究成果,设计、开发了Web数据抽取系统,实现了准确、高效的Web数据抽取与集成。
其他文献
人类对无线电频谱资源的需求急剧膨胀,为了有效地利用稀缺的无线电频谱资源,一些频谱利用率较高的调制方式和传输技术如多电平正交幅度调制(M-QAM)、正交频分复用(OFDM)、宽
近年来,互联网以及社交通讯的飞速发展给许多企业带来了技术的革新。企业可以通过基于互联网社交平台的投诉反馈通道,快速地收集到各类产品评价及服务质量等投诉反馈信息。对
在大数据时代,数据信息是最有价值的抽象事物,数据中蕴含着大量的有价值的信息,需要将这些信息提取出来,数据挖掘是实现的重要过程之一。数据挖掘是现今社会的热门学科,是从
在信息爆炸的互联网时代,网络上充斥着海量繁杂的信息和数据,且多以半结构化文本或自由文本形式呈现。用户对搜索所关注信息的效率性和获得结果的准确性有着越来越高的要求,
多目标优化问题始终是生产生活中不可避免的问题,对于求解此类问题的算法的研究和优化,始终是智能计算领域的重要课题。目前,分解策略型多目标进化算法(MOEA/D)由于其在解决
深度学习的发展使得人工智能的研究领域迈向更深、更实际的层次,其中卷积神经网络在图像特征表达方面具有十分重要的研究价值。本文结合国家科技支撑项目《民族工艺美术关键
近年来层出不穷的营销关系模式,并没有影响到B2B模式的地位,相对完善的发展和丰厚的利润和回报,决定了在未来的一段时间B2B模式仍然是众多商业模式中的主导。本文的研究课题B
在实际的生产与生活过程中常遇到需进行优化的问题,且优化的目标往往不止一个,目标间又互相冲突,这类问题称为多目标优化问题(Multi-objective Optimization Problems,MOPs),
列当属植物(Orobanche和Phelipanche spp.)是一类危害作物生产的寄生性杂草,其中埃及列当(P.aegyptiaca)主要危害番茄作物,常造成巨大损失。培育抗列当品种是防治列当的有效
随着国家经济的发展和铁路运输市场需求的进一步增长,对铁路运输装备提出了更高的要求。铁路车辆作为铁路运输的重要装备,其设计效率、安全性和可行性影响着我国铁路运输行业