结合块密度和标签路径特征的网页正文抽取方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:wsx19810518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,Web逐渐成为很多应用的重要信息来源。大多数网页除了正文信息外,还包括导航、广告、推荐链接、版权申明等与网页主题内容无关的噪声信息。这些噪声信息降低了搜索引擎、Web新闻聚合、Web信息检索等应用系统的性能。因此,网页正文抽取具有重要的研究意义和应用价值。本文基于网页的文本块密度和标签路径特征,开展网页正文抽取研究,主要研究工作如下:(1)根据网页的正文内容分布与网页文本块中的文本字符、标签信息的潜在联系,设计了一种区分网页中正文内容和噪声信息的文本块特征:文本块密度特征,解决了网页正文中短文本难以抽取的问题。进一步研究超链接字符在网页中的分布,扩展了文本块密度特征,有效地过滤了包含大量超链接字符的噪声信息块,提出了基于文本块密度特征的网页正文抽取算法CETBD。在CleanEval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETBD方法是一种通用的、高效的、无监督的且与语言无关的网页正文抽取方法。(2)为了提高CETBD算法抽取网页正文文本块的准确性,定义了标签路径覆盖率特征,并通过实例研究文本块密度特征和标签路径覆盖率特征之间的联系,将两个特征融合为新特征,并根据新特征提出了基于文本块密度和标签路径覆盖率的网页正文抽取方法CETD-TPC。实验结果表明:CETD-TPC方法是一种高精度、实时的网页正文抽取方法,抽取性能优于CETBD、CEPR和CETD算法。(3)设计并实现了一个基于文本块密度和标签路径覆盖率的Web新闻内容抽取原型系统,系统集成了本文提出的抽取方法和其它几个主流的正文抽取算法,介绍了系统的框架组成、实现以及系统的用户使用界面。最后分析了网页正文抽取算法在实际应用中的优势与不足。
其他文献
移动机会网络是一种新型的移动自组织网络MANETs。在这种网络中,网络拓扑频繁变化、节点之间的链路时断时续,节点之间的接触是难以预测的,源节点和目的节点之间的端到端的完
目的:客观评价吴氏长蛇灸对脾肾两虚型慢性疲劳综合症(CFS)患者抑郁状态的改善情况,为扶阳抑阴理论在抑郁症中的治疗提供临床证据。方法:采用中央随机,将符合纳入标准的CFS患
期刊
近十年来,我国集约化畜牧业飞速发展,全国人均动物产品占有量比十年前迅猛增加.达到了中等发达国家的水平。现代畜牧业生产与我国传统的养殖业相比,由于动物及其产品的交易流通明
地形变观测资料中干扰因素较多,而地震前兆与干扰往往不易区分。通过对多年地形变观测资料的整理分析,将带有普遍性干扰因素的典型畸变图像列出,并作了简要的物理机制说明.供同仁
课外活动是学校体育的重要组成部分,是学校体育开展的重要途径和最好检验,是推动群众体育广泛开展,增强学生体质,培养学生终身体育锻炼意识,提高运动技术水平和提高学生体育
随着社会经济的不断发展,我国已经成为全世界经济发展速度最快的国家,中国正处在社会的转型期,随之而来的,社会矛盾更加的多样性、复杂性、极端性。警察作为维护社会治安大局
联盟形成一直是多agent系统(multi-agent systems,MAS)和人工智能中的一个热点课题。其中,资源结盟博弈(coalitional resource games,CRGs)同时考虑资源受限、消耗和竞争,提
随着信息时代的发展,人们每天产生的信息都呈指数爆炸式地增长。这些信息都蕴含着有价值的数据有待人们去挖掘。比如,银行,保险等传统行业公司,每天都会收到大量客服来电,而
本论文主要从意识形态操控角度研究《鲁滨孙漂流记》林纾译本。勒菲弗尔在《翻译、改写以及对文学名声的操控》中指出,意识形态是影响译作的决定因素,它包括译者的意识形态和
随着市场经济体制改革的不断深入,国有企业需要面对的市场竞争也日益激烈,如何在现有条件下进一步降低成本、提升效益成为许多国企改革过程中必须面对的一个基本问题。对于电力企业而言,“厂网分开,竞价上网”和“电量交易市场化”一方面为这类企业指明了发展的方向,另一方面也对这些企业提出了变革要求。面对这一现状,企业应充分认识到人力资源的重要性,并通过对人力资源管理模式的改善,尤其是人岗匹配程度的增加来提升管理