采用最小DFS的Deep Web结构化数据抽取

来源 :图书情报工作 | 被引量 : 0次 | 上传用户：pgglankejianxin

【摘要】

：

通过分析动态数据在其Web页面中的展示特点,提出一个新的自动化、结构化数据抽取方法。首先基于DOM利用算法实现快速定位数据区,从而避免处理大量噪音数据;其次引入最小DFS编

【作者】

：

刘荣辉郑建国王翔

【机构】

：

东华大学管理学院,河南城建学院计算机科学与工程系,

【出处】

：

图书情报工作

【发表日期】

：

2010年14期

【关键词】

：

Deep Web 结构化数据最小DFS 编辑距离信息抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过分析动态数据在其Web页面中的展示特点,提出一个新的自动化、结构化数据抽取方法。首先基于DOM利用算法实现快速定位数据区,从而避免处理大量噪音数据;其次引入最小DFS编码来表示DOM子树,通过聚类对记录数据区进行区分;最后对少量样本页面训练学习生成抽取规则用于数据抽取。利用原型系统针对实际网站中的页面进行数据抽取,实验结果显示其拥有较高的准确性和效率。 By analyzing the display characteristics of dynamic data in its Web pages, a new automated and structured data extraction method is proposed. Firstly, based on the DOM algorithm, the data area is quickly located so as to avoid processing a large amount of noise data. Secondly, a minimal DFS coding is introduced to represent the DOM sub-tree and the data area is distinguished by clustering. Finally, a small amount of sample pages are trained to generate extraction rules In data extraction. Using the prototype system to extract data from the pages in the actual website, the experimental results show that it has higher accuracy and efficiency.

其他文献

高中心理健康教育活动课实施策略

在高中教学阶段,心理健康教育是不可或缺的教学组成部分,开展心理健康教育活动是实施心理健康教育的主要途径。在新时期的教学背景之下,教师设计的心理健康教育活动课需要具

期刊

唤醒合作发展高中心理健康教育活动课实施策略

国内外临床药师工作概况及SOAP模型在药师会诊中的应用

临床药师的工作内容包括：参与查房、提供药学信息服务、进行药物治疗监测与疗效评价、进行用药教育、参与会诊等,其工作目的是系统地运用临床药学专业知识与技能,发现、解决或

期刊

临床药师会诊SOAP模型

年轻女性旅游者消费心理及营销策略

年轻女性旅游市场具有较好的发展前景,但是市场的开发依然处于起步阶段。旅游从业者旅游从业者只有了解年轻女性旅游者的消费心理,打造出契合消费者的需求的旅游产品和服务,

期刊

年轻女性旅游消费心理营销策略

浅议弹性力学教学改革与课件制作

弹性力学广泛应用于许多工程领域,具有非常多的工程应用实例。目前教学中出现的学生认为弹性力学仅仅是推导公式,甚至出现学习逆反心理的现象。本文提出,在制作课件及课程讲

期刊

弹性力学教学改革课件制作Elastic mechanicsteaching reformcourseware making

高分辨率SAR图像目标检测与特征提取

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

学位

合成孔径雷达目标检测与特征提取恒虚警率超像素信息论

规划先行强化约束

期刊

生态控制线绿色化生态文明建设惠州市生态环保山水城市新型城镇化生态补偿制度城市总体规划

2型糖尿病足部溃疡患者血栓素A2表达水平及相关因素研究

目的探讨2型糖尿病足部溃疡患者血栓素A2表达水平的变化以及相关影响因素。方法择取2016年10月—2018年10月在该院诊疗的98例不同程度2型糖尿病患者,并对患者的检查结果和一

期刊

2型糖尿病足部溃疡血栓素A2血栓素B2因素

贵州省气候资源及农业气候资源特征分析

会议

贵州省农业气候资源温度降水日照

采用最小DFS的Deep Web结构化数据抽取

其他学术论文