基于树先剪枝的网页正文抽取方法研究

来源 :科技创新与应用 | 被引量 : 0次 | 上传用户：daiguangying

【摘要】

：

本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪

【作者】

：

王亮高屹

【机构】

：

西藏民族学院信息工程学院,

【出处】

：

科技创新与应用

【发表日期】

：

2013年36期

【关键词】

：

剪枝技术信息熵 DOM树网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪音节点,生成抽取公共路径,抽取相关网页。经过试验验证,该方法降低了搜索的复杂度,提高了搜索的准确度,提高了搜索效率。 In this paper, we propose a new method of extracting web page text based on tree pruning technique and information entropy. This method analyzes the various templates and texts on the webpage, extracts the webpage which is located according to the information entropy, converts the webpage into the DOM tree, deletes the noise nodes, generates the public path and extracts the related webpages. After experimental verification, this method reduces the search complexity, improves the search accuracy and improves the search efficiency.

其他文献

小议如何做好中职班主任的班级管理工作

一直以来,班主任的班级管理工作纷繁复杂而又难以驾驭,想要找到好的方法,进行科学地解决,是很难达成的。本文以中职班主任班级管理的实际为例,就做好班级管理中,采用高效的管

期刊

做好中职班主任班级管理工作

18#道岔交叉式线岔平面布置

线岔作为接触网设计的关键技术之一，道岔区的平面布置是否合理直接影响到弓网关系的可靠性。文章主要结合集包线对18#道岔交叉式线岔平面布置进行研究和分析。

期刊

交叉式线岔接触网平面布置

本土酒店基于生涯赋能提升员工忠诚度现状调查 ———以成都市本土酒店为例

目前国内酒店业普遍存在着基层员工高流失率的问题,提高员工忠诚度成为酒店业界和学界亟需解决的问题。本文基于生涯赋能的视角,采用问卷调查法、访谈法、文献分析法就成都

期刊

本土酒店生涯赋能员工忠诚度

浅谈土质堤防散浸险情产生原因与抢护措施

东荆河是汉江唯一的自然河流，河道上起潜江市龙头拐，经五县（市、区），下迄武汉市汉南区三合垸汇入长江，全长173公里，一河挑两江，上防汉江来水，下防长江倒灌，防洪频率高。东荆河两岸堤防

期刊

堤防散浸原因抢护措施

对高校中层管理人员目标责任制考评的思考

本文对目前高校中层管理人员目标责任制考评中存在的问题及其应对措施作了探讨.提出应从考评主体明晰化、考评目标科学化、考评指标具有可操作性、考评的方法和程序规范化、

期刊

高等学校目标责任制考评方法colleges and universities system of aim responsibilitycheck me

小组合作学习模式在高中政治课堂中的应用方法解析

在小组合作学习活动中,高中学生可以表现的极为个性,甚至是“任性”,他们能够为了说明自己的论点积极地查找论据,他们还可以为了寻找问题答案,积极地进行学习规划。当然,

期刊

小组合作学习模式高中政治课堂应用方法

创新我国环境监测质量管理体系的几点建议

我国环境监测质量管理体系在当前的宏观调控下,得到完善和发展。使环境监测质量管理体系走向了制度标准化和科学化的方向。我们要创新我国的环境监测质量管理体系,加强环境监测的力度,完善相应的体系,培养管理人员能够很好的监测环境质量。

期刊

环境监测质量管理管理体系

论“新经济”的成因与对策

美国通过科技创新和制度创新，促进了经信息产业为代表的高新技术为主导的产业结构优化升级，形成了高经济增长率，低通货膨胀率与低失业率并存的“新经济”。我国发展新经济，应加大

期刊

新经济科技创新制度创新产业结构成因发展中国New Economyinnovation of science and technologyinn

作者调查表

期刊

人力资源会计—21世纪的会计主流

21世纪是知识经济的时代。知识经济就是以知识为基础来发展经济，作为知识载体的人力资源和将成为经济发展的首要资源。因而，提供有关人力资源投资的增减、人力资源价值的大小和

期刊

知识经济人力资源人力资源会计人力资源投资人力资源管理人力资源价值劳动者权益knowledge economy human resources

基于树先剪枝的网页正文抽取方法研究

与本文相关的学术论文