网页信息提取技术

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：bill119

【摘要】

：

随着互联网的快速发展，Web页面上的信息量已变得非常巨大，面对网页上海量的信息资源，如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提

【作者】

：

邵振凯

【机构】

：

安徽理工大学计算机科学与工程学院

【出处】

：

计算机技术与发展

【发表日期】

：

2013年9期

【关键词】

：

DOM 标签提取信息提取网页净化

【基金项目】

：

安徽省自然科学基金(11040606M135)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的快速发展，Web页面上的信息量已变得非常巨大，面对网页上海量的信息资源，如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树，然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取，把用于控制网页交互性和显示的标签删除掉，并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验，结果表明标签提取方法不但通用性强，而且能够准确地提取网页的主题信息。

其他文献

《东盟宪章》的影响与我国应对措施

2007年11月20日,《东盟宪章》得以通过,成为东盟发展的重要标志。文章在阐述东盟宪章出台背景、意义和主要内容的基础上,重点分析了《东盟宪章》对东盟自身、中国发展及华侨

期刊

《东盟宪章》影响应对措施

绿地金控基金宏图

绿地金控版图正逐渐扩大，基金投资成效已颇为显著。绿地金融控股集团董事长、总裁耿靖介绍，截至目前，绿地管理的基金有6支，合同规模超过1800亿元。

期刊

基金管理公司金融控股集团中金公司私募股权投资基金有限合伙人

高校“乒乓球”课程教学的问题与对策——基于北京林业大学的教学实践

基于北京林业大学乒乓球教学的多年实践，对目前高校“乒乓球”课程教学中存在的问题与矛盾进行了分析，指出教师讲授不清、练习方法枯燥、考核评价单一是影响高校“乒乓球”课程

期刊

高校乒乓球教学问题与矛盾改革措施

实习生浅谈内科护理纠纷的防范

从实习生的角度分析年轻护士及实习生产生护理纠纷的原因，通过多向高年资护士学习，逐步培养自己的沟通能力、增强自己的专业技能，逐步规范自己的护理操作流程、护理文件的书写，提

期刊

实习生年轻护士护理纠纷防范

欧洲整合中的认同建构

作为经济政治的全方位联盟，欧洲一体化进程决定了欧洲联盟不仅是利益和目的的共同体，还是文化和理念的共同体，为所有的欧洲公民创造一个情感归属的“精神家园”。解读欧洲认同及

期刊

欧洲认同多元文化主义认同政治他者

人工晶体类型、生产现状和发展趋势

1 人工晶体类型按人工晶体在眼内的固定位置,可分为前房型、虹膜支持型及后房型。前房型由聚甲基丙烯酸甲酯(PMMA)制成,分硬性和弹性两种,硬性的现已不用,弹性的也仅用于特

期刊

人工晶体植入后囊混浊光学镜片晶体表面瞳孔区前房型屈光指数一体式激光治疗无支撑定位孔曲率半径晶体类型现状和发展趋势

UTGIS的建立和交通管理信息的综合应用

城市交通管理所涉及的各类信息，大部分与地理和分布密切相关，其空间地理特征非常适合采用地理信息系统技术，可以将各种交通对象以点、线、面的方式在地图上表示出来。例如道路网

期刊

城市交通地理信息系统交通信号控制电子地图UTGIS交通诱导综合应用

白介素-6信号传递途径及其与结肠癌的关系

白介素-6（interleukin-6，IL-6）家族的特征是在其受体的组成中至少包括一个为gp130（glycopeptides130，CD130）、具有跨膜信号传递功能的亚单位。该家族包括IL-6、IL-11、睫状神经营养

期刊

白介素-6信号传递结肠肿瘤

锦江水电厂机组增容改造的实践

锦江水电厂1号、2号机组转轮发现有多处裂纹，个别叶片随时可能断裂，严重威胁着电厂的安全生产。通过计算、调研，确定重新更换不锈钢转轮的改造方案，待新转轮投产出力达到预期要求

期刊

水轮机发电机增容改造

一种新型的圬工挡墙护面绿化技术——阶梯式空心砖绿化

针对公路坡面圬工防护工程中存在的问题．提出的一种新型的圬工挡墙护面绿化技术——阶梯式空心砖护面墙绿化技术，可用于实现较陡坡率的圬工防护构造物表面的绿化美化，同时对于边

期刊

圬工防护空心砖绿化

网页信息提取技术

与本文相关的学术论文