论文部分内容阅读
摘 要:本文提出了一种基于DOM树的正文提取方法。该方法是在基于DOM树的文本密度的正文提取算法的框架上改进而来的。基于对文言文翻译网站的观察,本方法使用标点符号密度取代原方法的文本密度。通过随机选取50篇文言文翻译网页作为测试集,本文提出的方法获得了更好的准确率、召回率和F值。
关键词:DOM;标点密度;文本密度;正文提取
中图分类号:TP312 文献标识码:A 文章编号:2095-2163(2015)04-
A Method of Webpage Content Extraction based on Point Density
YANG Qin, YANG Muyun
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: This paper proposes a DOM based content extraction method. It is improved from the DOM based content extraction via text density. Based on the observation of classical Chinese translation websites, the paper uses point density to replace text density.50 classical Chinese translaiton webpages are randomly chosen as the test data set, the proposed method obtains better precision, recall, and F-measure.
Keywords: DOM; Point Density; Text Density; Content Extraction
0引 言
互联网的快速发展使其已经成为一个天然庞大的数据来源,而且其影响也正在日渐提升之中。搜索引擎、网络数据挖掘等技术正是使用这些网络数据来发现有用的信息和知识。具体来说,这些技术的研究对象就是网页的正文内容。但在现实状况下,网页的正文却通常是和网页的其他内容如导航信息、广告、版权说明等混合掺杂在一起。这些内容和网页的主题并无任何关系,而只是噪声信息,因而对有关网页课题的探索研究造成全局性的复杂且重大的影响。
基于此,为了提升网络数据挖掘和信息检索等的设计研究性能,即可利用网页正文提取技术从网页中去除噪声信息提取网页正文。总体来说,正文提取可以提升相关研究的工程实际性能,并已在现实中获得了广泛的应用。使用WEB作为语料库吸引了自然语言处理领域众多的研究者的关注参与。通过自动下载相关网页,并进行正文提取,就可以较短的时间,较小的代价构建一个大型语料库。此外,移动手机的大量普及则使得网页需要适应较小的屏幕。综上可知,针对网页进行正文提取的需求已是日显迫切。然而,提取网页正文却是一个困难的任务。早在2005年,Gibson等[1]就估计出网络上的噪声信息的比例将在40%~50%,并且准确预言了这个比例还会不断上升。现如今,网页的布局和风格已比从前更趋复杂,这一现象也随即愈加严重。现在的网页大多使用格式标签和
关键词:DOM;标点密度;文本密度;正文提取
中图分类号:TP312 文献标识码:A 文章编号:2095-2163(2015)04-
A Method of Webpage Content Extraction based on Point Density
YANG Qin, YANG Muyun
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: This paper proposes a DOM based content extraction method. It is improved from the DOM based content extraction via text density. Based on the observation of classical Chinese translation websites, the paper uses point density to replace text density.50 classical Chinese translaiton webpages are randomly chosen as the test data set, the proposed method obtains better precision, recall, and F-measure.
Keywords: DOM; Point Density; Text Density; Content Extraction
0引 言
互联网的快速发展使其已经成为一个天然庞大的数据来源,而且其影响也正在日渐提升之中。搜索引擎、网络数据挖掘等技术正是使用这些网络数据来发现有用的信息和知识。具体来说,这些技术的研究对象就是网页的正文内容。但在现实状况下,网页的正文却通常是和网页的其他内容如导航信息、广告、版权说明等混合掺杂在一起。这些内容和网页的主题并无任何关系,而只是噪声信息,因而对有关网页课题的探索研究造成全局性的复杂且重大的影响。
基于此,为了提升网络数据挖掘和信息检索等的设计研究性能,即可利用网页正文提取技术从网页中去除噪声信息提取网页正文。总体来说,正文提取可以提升相关研究的工程实际性能,并已在现实中获得了广泛的应用。使用WEB作为语料库吸引了自然语言处理领域众多的研究者的关注参与。通过自动下载相关网页,并进行正文提取,就可以较短的时间,较小的代价构建一个大型语料库。此外,移动手机的大量普及则使得网页需要适应较小的屏幕。综上可知,针对网页进行正文提取的需求已是日显迫切。然而,提取网页正文却是一个困难的任务。早在2005年,Gibson等[1]就估计出网络上的噪声信息的比例将在40%~50%,并且准确预言了这个比例还会不断上升。现如今,网页的布局和风格已比从前更趋复杂,这一现象也随即愈加严重。现在的网页大多使用格式标签和
等代替结构标签来展示网页的格式信息。但诸多较早使用的正文提取方法却已无法适应这一变化,其表现则呈显著大幅下降态势。根本原因在于,近年来的网页很多都不再使用如、等特定的HTML线索,而那些正文提取算法中使用的却仍是这些经典标志。