基于树先剪枝的网页正文抽取方法研究

来源 :科技创新与应用 | 被引量 : 0次 | 上传用户:daiguangying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪音节点,生成抽取公共路径,抽取相关网页。经过试验验证,该方法降低了搜索的复杂度,提高了搜索的准确度,提高了搜索效率。 In this paper, we propose a new method of extracting web page text based on tree pruning technique and information entropy. This method analyzes the various templates and texts on the webpage, extracts the webpage which is located according to the information entropy, converts the webpage into the DOM tree, deletes the noise nodes, generates the public path and extracts the related webpages. After experimental verification, this method reduces the search complexity, improves the search accuracy and improves the search efficiency.
其他文献
一直以来,班主任的班级管理工作纷繁复杂而又难以驾驭,想要找到好的方法,进行科学地解决,是很难达成的。本文以中职班主任班级管理的实际为例,就做好班级管理中,采用高效的管
线岔作为接触网设计的关键技术之一,道岔区的平面布置是否合理直接影响到弓网关系的可靠性。文章主要结合集包线对18#道岔交叉式线岔平面布置进行研究和分析。
目前国内酒店业普遍存在着基层员工高流失率的问题,提高 员工忠诚度成为酒店业界和学界亟需解决的问题。本文基于生涯赋能 的视角,采用问卷调查法、访谈法、文献分析法就成都
东荆河是汉江唯一的自然河流,河道上起潜江市龙头拐,经五县(市、区),下迄武汉市汉南区三合垸汇入长江,全长173公里,一河挑两江,上防汉江来水,下防长江倒灌,防洪频率高。东荆河两岸堤防
本文对目前高校中层管理人员目标责任制考评中存在的问题及其应对措施作了探讨.提出应从考评主体明晰化、考评目标科学化、考评指标具有可操作性、考评的方法和程序规范化、
在小组合作学习活动中,高中学生可以表现的极为 个性,甚至是“任性”,他们能够为了说明自己的论点积极地查 找论据,他们还可以为了寻找问题答案,积极地进行学习规 划。当然,
我国环境监测质量管理体系在当前的宏观调控下,得到完善和发展。使环境监测质量管理体系走向了制度标准化和科学化的方向。我们要创新我国的环境监测质量管理体系,加强环境监测的力度,完善相应的体系,培养管理人员能够很好的监测环境质量。
美国通过科技创新和制度创新,促进了经信息产业为代表的高新技术为主导的产业结构优化升级,形成了高经济增长率,低通货膨胀率与低失业率并存的“新经济”。我国发展新经济,应加大
期刊
21世纪是知识经济的时代。知识经济就是以知识为基础来发展经济,作为知识载体的人力资源和将成为经济发展的首要资源。因而,提供有关人力资源投资的增减、人力资源价值的大小和