基于Web页面结构的网页数据提取技术探究

来源 :产业与科技论坛 | 被引量 : 0次 | 上传用户:maria76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展,各种各样的数据信息呈现出爆炸性的增长,而网络上的数据主要来自于Web数据。然而受到多种因素的影响,人们往往不能在众多的数据当中提取到需要的或者感兴趣的内容,所以如何在众多的数据当中提取到有用的内容并且存储起来十分的重要。现阶段,对此方面的研究大多是以HTML标签解析为依据基于网页DOM树结构,再利用包装器的设计方式进行相应的提取技术。本文以DOM树结构为基础,主要对Web页面抽取和相关技术进行概述,研究了Web页面数据的区域定位算法,从而进行网页数据记录抽取工作。
其他文献
每年一届的“全国地方铁路年度工作会议”可谓是中国地方铁路企业的年度盛事,为期三天的会议虽说让佟永钊会长有些疲惫,但对于记者提出的采访要求,刚刚回北京的佟会长还是愉快的
弹簧减振吊架广泛应用于安装行业的各种"悬空"物体中,通过对其安全性能的改进措施,能大大减小危险系数,提高施工效率.
介绍了集中供热管线过汾河,采用大管径直埋、无补偿、无固定、管道预热伸长等新工艺的施工技术,克服了水下直管段较长无法设置补偿器和常年受河流冲刷对管道的影响等问题,开
按照北京轨道交通发展规划.2015年.北京市要实现”三环、四横、五纵、九放射”总长561公里的轨道交通网络的宏伟蓝图。2015年之前北京将分三个阶段建设地铁新线.逐步构建北京地
随着新教改的不断推进,许多传统学科的教学方式、教学方法都发生了改变,这些改变以近两年兴起的多媒体技术等新兴技术为依托,以先进的教学思想为导向,将传统学科与现代社会发
王维(杜邦中国集团有限公司公共交通事业部负责人):杜邦公司成立于1802年,已经走过了210年的历程,是全球500强公司,现在已经开始了第三个一百年的历程,第一个一百年它是一个化学公司
现在的课堂上经常出现一个很突出的问题:教师教的很辛苦,学生学得很痛苦,但学生却没有得到应有的发展,这实质上是无效或低效教学。教学效率高不高,并不是指教师有没有教完内
期刊
十六届六中全会通过的《关于构建社会主义和谐社会若干重大问题的决定》中。中央首次提出了“社会体制改革”这一概念.并被认为是继经济体制改革、政治体制改革、文化体制改革
中西绘画由于不同的文化背景和美学理念,形成了各自不同的风格,表现出较大的差异。再次由于各个国家和民族在政治经济等方面的也有差异,所以中西方绘画在艺术形式、表现手段