基于网页分块自定义信息提取的Web信息采集器设计

来源 :广东科技 | 被引量 : 0次 | 上传用户：Leechen17008

【摘要】

：

通过分析现有网络信息采集软件的不足,根据网页文本信息的结构和内容特征,提出一种基于网页文本信息或富文本信息的优化提取策略。通过将网页文档表示为DOM标签树的形式,把信

【作者】

：

苏炜李正权黎有

【机构】

：

广东省计算中心

【出处】

：

广东科技

【发表日期】

：

2010年16期

【关键词】

：

信息采集信息提取 XPath定位信息降噪结构化存储

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过分析现有网络信息采集软件的不足,根据网页文本信息的结构和内容特征,提出一种基于网页文本信息或富文本信息的优化提取策略。通过将网页文档表示为DOM标签树的形式,把信息按Web页面的标签进行内容块的分割,结合XPath定位的方式,利用可视化的工具提取网页中有用信息,实现自动定期采集并按自定义表结构存储。

其他文献

数据挖掘在高速公路联网收费中的应用

高速公路网交通基础数据基本可以划分为精确实时采集数据和抽样调查数据。精确实时采集数据主要包括联网收费系统数据和公路断面自动设备实时采集数据。其中，联网收费系统数据

期刊

高速公路联网收费数据挖掘联网收费系统应用采集数据属性信息行驶车辆高速公路网

大采高采煤煤壁片帮的影响因素及防治

大采高采煤所具有的优势使得在国内外被广泛地采用,煤壁的稳定性对大采高支架性能的发挥具有很大影响。本文分析了影响煤壁片帮的4个主要因素及防治措施。

期刊

大采高采煤煤壁片帮防治

RS485总线在隧道监控中的应用

本文以漳龙高速公路机电项目中隧道控制实际应用为例,说明RS485总线应用中遇到的问题和解决的方法以及经验教训,希望对同仁们有所帮助。——作者

期刊

RS485总线隧道监控应用漳龙高速公路机电项目

应变·出击·坚守·反思

2008年5月12日，天微微有点闷热，一切都像平常一样。宽大的四川省高速公路监控大厅内，高速公路联网收费系统、运行监控系统、通信系统，高速公路12122服务热线电话、四川交通在线网

期刊

高速公路联网收费系统运行监控系统应变高速公路网计算机屏幕四川省公路监控通信系统

一种改进的DCO-OFDM传输方案设计

针对传统直流偏置正交频分复用系统能源利用率过低的问题,提出了一种只在偶数子载波上传输数据符号的改进方案。改进系统将常规QAM数据分为实部及虚部两路单独进行PAM调制,并

期刊

可见光通信DCO-OFDM厄米特对称误码率visible light communication DCO-OFDM Hermitian symmet

钢带逆涂涂层厚度预测

本文考虑涂层辊入口涂液厚度为的实际情况，引入毛细边界条件，对Gaskeu模型的入口边界条件进行了改进，得到液膜进出口位置待定的三阶刚性微分方程，采用多变量搜索法得到方程的解，可

期刊

毛细边界条件三阶刚性微分方程涂层厚度

陕西省高速集团办公自动化系统

概述陕西省高速公路建设集团公司是大型国有独资企业，公司主要业务是负责高速公路的建设、运营、养护与管理。目前，负责新建、改扩建高速公路678公里，养护管理高速公路1200多公

期刊

办公自动化系统陕西省高速公路建设国有独资企业养护管理集团公司管理现代化跨越式发展

“新闻群众工作学”简论

迄今为止,在我国的新闻学教科书上,没有"新闻群众工作学".理论常常落后于实践.对于新闻群众工作的研究,也落后于实际现状.事实上,自新中国成立以来,在我国的报刊、广播电视、

期刊

“新闻群众工作学”简论新闻学

宽带电力线通信在解决接入网“最后一公里”问题中的优势

本文对电力线通信技术进行了简单介绍，分析了电力线传输技术（PLC）的特点，重点阐述了电力线通信网络与传统通信模式相比较的优势所在和电力网通信在市场化过程中的主要问题，为解决

期刊

宽带电力线通信PLC通信网络通信模式传输模式

类蜂巢晶格结构PCF损耗特性的研究

介绍了类蜂巢晶格结构的光子晶体光纤(PCF),利用频域有限差分法分析了光纤损耗随结构参数改变的变化情况。采用平面波法计算了拉制的类蜂巢晶格结构PCF的带隙结构和模场分布,结果表明该光纤能以基模形式传输光束,对光具有较强的束缚能力。

期刊

光纤频域有限差分法类蜂巢结构损耗optical fiber finite difference frequency domain method ho

基于网页分块自定义信息提取的Web信息采集器设计

与本文相关的学术论文