基于HTML标记用途分析的网页正文提取技术

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：xamalong

【摘要】

：

通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HT

【作者】

：

常红要朱征宇陈烨张鹏曾丽芳

【机构】

：

重庆大学计算机学院

【出处】

：

计算机工程与设计

【发表日期】

：

2010年24期

【关键词】

：

HTML网页数据挖掘内容抽取噪音数据元素删除法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容。

其他文献

南昌市防灾绿地建设现状及对策

城市绿地作为城市防灾系统的重要组成部分,具有突出的防灾避险功能。在阐述近年来南昌市城市绿地建设取得巨大成绩的基础上,分析了城市防灾避险绿地建设方面存在的一些问题,

期刊

防灾绿地城市绿地南昌市对策

土地调整:农村社会保障与农村社会控制

频繁的土地调整是当前我国村级土地制度实践最为重要的特征之一。已有的研究　　大多只注意到土地调整的负面效应 ,却忽视了土地调整本身具有重要的社会保障和社会　　控制职

期刊

土地调整农村社会保障农村社会控制

农户农产品销售渠道的选择与评价——以广东省荔枝种植者为例

本文以广东省内18个县(市、区)的871个农户的调研数据为基础,尝试提出了农户农产品销售渠道评价指标体系,并运用该评价指标体系对当地目前主要的四种荔枝销售渠道进行了初步

期刊

农户农产品销售渠道评价指标广东省

医学论文中统计分析错误辨析与释疑(10)——定量资料分析方法的合理选择

期刊

定量资料单因素多水平设计重复测量设计相对心率错误辨析医学论文合理选择

裸鼠模型在皮肤疾病研究中的应用

裸鼠模型已被广泛地应用于许多皮肤病的研究中,在裸鼠的各生长期,正常人皮肤均可被移植成活而不被排斥。观察皮肤病皮片移植前后的组织病理学及细胞动力学特征性变化,有助于

期刊

裸鼠皮肤移植

Nd∶YAG激光治疗后发性白内障的临床观察

目的:观察N d∶Y AG激光治疗白内障术后后囊膜混浊(posteriocrapsularopacificati,oPnCO)的情况,旨在减少术后的并发症。方法:对160例(175眼)人工晶状体植入术后后发性白内障

期刊

白内障术后激光手术后囊膜混浊

断路器操作回路详述

断路器作为电力系统的重要元件,其操作回路在断路器切断一次回路过程中起着重要的辅助和保护作用。为了电力系统和设备的可靠运行,必须保证断路器和其操作回路的合理选型和使

期刊

断路器防跳回路操作箱

大麦籽粒抗冻蛋白的制备及抗冻机制的研究

抗冻蛋白(antifreeze proteins,AFPs),是一类能够降低溶液冰点、修饰冰晶形态、抑制冰晶重结晶的蛋白质。独特的性质使其在冷冻食品添加剂领域具有较好的应用前景。本文以冷

学位

大麦AFPs面团湿面筋蛋白分子模拟

论职业院校专业教育与创业教育的有效融合

在职业院校推行创业教育是我国高等职业教育改革和发展的必然趋势,创业教育更是我国素质教育健康发展的必然要求,也是全面提升职业院校学生综合素质的有效途径。目前,要想在

期刊

职业院校专业教育创业教育融合

工程机械远程检测技术研究

工程机械作为我国现代化建设的施工和作业设备在民用建筑、国防工业、水利建设等一系列工程施工中起着举足轻重的作用,并且伴随着我国经济建设与科技水平的发展,它在施工过程

学位

工程机械远程检测DataSocketWeb发布GPRS振动测试

基于HTML标记用途分析的网页正文提取技术

其他学术论文