基于分块的网页正文信息提取算法研究

来源 :计算机应用 | 被引量 : 104次 | 上传用户：lw_hualei

【摘要】

：

提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。

【作者】

：

黄文蓓杨静顾君忠

【机构】

：

华东师范大学计算机科学技术系

【出处】

：

计算机应用

【发表日期】

：

2007年S1期

【关键词】

：

Web网页正文提取内容块标签树噪音

【基金项目】

：

上海市科学技术委员会科技攻关项目（055115001）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

浅谈CHKD在临床诊疗过程中的作用

《中国医院知识仓库》(简称CHKD)的引进,标志着我院图书馆开始进入数字化时代,真正实现了信息资源存储数字化、传输网络化、资源共享化,为医院管理、医疗、科研、教学等提供

期刊

盐胁迫对水稻苗期的影响研究——盐胁迫对水稻苗期水分的影响

对123个不同水稻品种分别在纯水、100 mmol/L NaCl和150 mmol/L NaCl水溶液中的萌发情况进行试验,来研究盐对幼苗鲜重含水量和干重含水量的影响规律,以及不同品种鲜重含水量

期刊

水稻盐胁迫鲜重含水量干重含水量Rice Salt stress Water content in fresh weight Water content

微信群用户参与公共突发事件话题讨论的动机研究

[目的/意义]旨在为制定有效引导和监管用户参与公共突发事件的策略提供参考。[方法/过程]在文献研究的基础上,提出微信群用户参与公共突发事件话题讨论的动机主要有:信息动机

期刊

微信群行为动机参与意向公共突发事件WeChat groupbehavior motivationparticipation intentionpubli

中间包冶金技术浅谈

<正> 中间包冶金自80年代中期开始开发以来,发展迅速,取得了许多研究成果和综合经济效益。本文主要综述其研究现状及今后的技术课题。 1 改进中间包结构设计使钢水流动最佳化

期刊

中间包冶金钢水成分夹杂物去除

hs指数的数学模型构建及其实证分析——一种基于半衰期和时间因素的学术影响力评价指标

[目的/意义]在h指数基础上提出新的学术影响力评价指标。[方法/过程]在综合考虑被引频次、半衰期、年度出版文献总数等因素的基础上,通过提高学者指标核论文的覆盖率,同时纳

期刊

H指数半衰期指标核覆盖率hs指数合作者贡献度h-indexhalf-lifethe cover ratio of index corehs-index

激励教学在小学体育跳绳教学中的运用

在小学教学过程中,体育科目的教学是非常重要的一项工作,体育教学如果能够很好地开展,那么学生的体质就能够得到增强。但是,目前的小学体育教学效果并不是很好,学生的运动能

期刊

激励教学小学体育跳绳教学运用

以服务“三农”为己任，努力实现农牧民增收的目标——寄语《现代农业》读者

《中共中央国务院关于促进农民增加收入若干政策的意见》即中央1号文件的出台，真有一种似曾相识、如沐春风的感觉。这是时隔18年，中央再次以农业和农村问题为内容下发“1号文件

期刊

农民增收农业农村措施

基于Doc2vec的专利与行业类目映射研究

[目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分

期刊

Word2vecDoc2vec类目映射余弦相似度text vectorizationWord2vecDoc2veccategory mappingcos

义县汉族人群指纹特点分析

探讨义县汉族人群的指纹特征，为皮纹学研究提供参考。方法：在知情同意情况下按捺523名（男220例，女303例）义县汉族人的掌指纹，分析指纹类型、计数指纹嵴线数。结果：义县汉族人群箕形

期刊

皮纹学指纹汉族义县dermatoglyphics fingerprint Han nationality Yixian

贵州屯堡人头面部形态特征的年龄变化

目的：研究人类头面部形态特征随年龄增长而变化的规律。方法：采用随机取样方法调查了屯堡人507例（男251例，女256例）38项头面部指标，并计算了12项头面部体质指数，对屯堡人头面部形态

期刊

头面部指标屯堡人贵州head facial index Tunpu Guizhou

基于分块的网页正文信息提取算法研究

与本文相关的学术论文