Web页面结构化数据抽取的研究与实现

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户:man416784150
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网迅猛发展,使得互联网成为一个庞大的信息源。结构化数据作为网络中比较常见的数据形式之一,具有多种网页呈现方式,对于这些数据的抽取,往往需要大量的人工操作,这给数据的抽取工作带来了很大困难。因此,为了实现自动获取网页中的结构化数据信息,基于结构化数据的挖掘成为数据挖掘领域中的一个主要研究方向。目前,该领域已经进行了大量针对网页信息抽取的研究,出现了很多关于数据价值评估的理论以及抽取网页中结构化数据的算法。  本文主要面向富含数据的两种页面--列表页和详情页,在已有的结构化数据抽取算法基础上,针对多数据区域抽取的效率问题、图表数据的识别和WEB表之间的实体关系挖掘等三个方面的问题,研究并提出了相应的改进算法。其中,第一种改进的算法主要面向包含嵌套型数据的列表页,解决了提高处理多数据区域时的效率问题。该算法在已有的平坦数据挖掘算法基础上,加入了数据区域挖掘算法,根据构造出的嵌套数据列表页标签树,找出所有数据区域并进行统一处理,对所有子树应用简单树匹配和部分树对齐算法,生成全局模式,进而抽取出所有的数据记录;第二种改进的算法主要针对识别图表形式的结构化数据所进行的研究,是作为第一种方法的补充研究。首先通过结构化数据抽取算法获得富含结构化信息的图表所属数据区域,其次应用图像信息二值化算法以及OCR算法,将图表内容转化为文本,之后将转化出的文本再应用结构化信息抽取算法,得到页面中完整的有价值信息;第三种改进的算法着重于数据表格内部及表格之间实体关系的挖掘。这种方法在已有实体关系挖掘算法的基础上,加入实体关系候选项的反馈过程,先计算出超链接信息的置信度并找出候选关系,再计算此候选关系的可信度,将大于规定阈值的候选关系定为新的关系并加入到循环中,从而解决了原算法容易忽略超链接信息的问题,达到全面准确的挖掘出实体关系的目的。  上述三种方法实质是针对面向数据抽取的不同阶段设计的。第一种和第二种方法针对数据本身进行数据抽取,第三种方法不仅面向多页面数据抽取,同时也为之后的数据集成阶段做准备。三种方法相辅相成,填补了原算法的一些不足,提高了数据抽取的效率。三种算法的研究与实现主要基于所在实验室的房地产决策与评估系统项目平台,因此具有广泛的实际应用意义。
其他文献
随着无线通信网络技术的进步和多媒体服务的兴起,移动通信已经成为当今通信领域内最为活跃和发展最为迅速的领域之一,也是21世纪对人类的生活和社会发展有着重大影响的科学技术
线性规划作为运筹学的一个重要分支,广泛的运用到生产和制造业之中。人们通过建立线性规划模型并求解,来得到最优的生产计划。但是如何对于线性规划结果的解释和调整,来获得
随着网络、通信、多媒体计算的迅猛发展,嵌入式系统得到了广泛的应用,实时系统的应用也逐渐从传统的科学研究、国防、工业控制等领域扩展到人类社会的方方面面。实时系统的研
随着互联网多媒体技术的发展,用户希望能看到信息更加丰富,效果更加生动的页面。无论是在电子商务活动和互动游戏等应用领域,还是在图形图像等研究领域,网络化三维建模作为反映实
直升机巡检输电线路图像背景复杂多变,目标物众多,给边缘检测和后续的识别诊断带来很大困难。本文结合实际项目的应用需求,以直升机巡检输电线路图像为实验数据,针对直升机巡
多租户数据存储是软件及服务(SaaS, Software as a Service)中一个重要的研究内容。针对SaaS应用“单实例多租赁”这一特点,人们提出了很多解决多租户数据存储问题的方法,其
作为软件生命周期中必不可少的阶段,软件测试是保障软件安全性和可靠性的重要手段。随着并行程序逐渐成为主流,软件测试的研究方向也逐渐向并行方面转移。然而,并行程序通常由多
随着计算机技术的发展进步,计算机视觉技术也在发生着日新月异的改进。其中作为这项技术中的重要组成部分的运动目标检测和跟踪技术也在日益完善和发展。尽管如此,在我们的实
近些年,企业规模和业务不断向多个地区扩展,企业数据环境也因此变得更加复杂。ETL,即数据抽取、转换和加载过程,是构建数据仓库的重要环节,所占工作量很大。如何提高ETL的处理能力
随着无线射频识别技术(Radio Frequency Identification,RFID)的广泛应用,RFID供应链中信息的安全和隐私保护问题变得越来越严峻,阻碍了RFID技术在各行业的进一步应用。研究有效的