论文部分内容阅读
摘 要:本文对网页去噪的定义和分类、经典方法以及实验方法等进行了研究,在重定义启发式规则的基础上,针对文本类网页,设计新的算法,并用代码进行实现,在对比结果中验证,该算法能很好的解决文本类网页噪音问题。
关键字:网页去噪;DOM树;风格树;启发式规则
中图分类号:TP393.092 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.08.029
本文著录格式:[1]陈雪,徐慧,沈家峻. 基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97
0 相关研究
随网民人数和网站数目的急速增长,网络上的信息也以一种前所未见的速度增长,以满足人们对信息的渴求。但在网页中,除了主题信息以外,还存在大量与主题无关的导航条、广告信息、版权信息以及修饰信息等内容,这些内容相对于主题内容来说就是噪音内容。从大量复杂的网页中迅速、有效地获得所需信息,并清除无用的噪音成为近几年大家研究的重要问题及难点问题。当前,国内外关于噪音信息去除的研究中,大多数是基于网页本身的特点和主题信息的特征,如LIN Shan—hua[1]等;或是运用启发式规则,如张志刚[2]等;或是基于DOM树,如刑涛[3]等;或是运用模板;或是基于机器学习等诸多的去噪方法。
本文针对文本类网页,主要在于定义不同于上述方法的启发式规则,但又能更好地满足噪音去除需求。本方法后续可加入机器学习等更好地优化本方法。
1 去噪思想
本文对文本类网页进行噪音去除,大体流程如下:首先获取网页,并通过Beautiful Soup解析器对获取的HTML网页进行解析,剩余承载网页内容、图片、链接以及非其他信息部分;其次根据网页标签分类表示成DOM树,并依据文本内容、图片、字符、链接及脚本等进行分类;最后依据定义的启发式规则对文本、图片、链接等阈值进行主体内容提取,将噪音信息去除,从而获得所需内容。其中,要点是DOM的形成和启发式规则的定义。下面对这两点分析:
1)分析HTML标签进行内容、图片、链接等分类。即一个块表达了什么形式的内容,有文字长度、链接数量、链接文字长度、图片数量、图片大小等等。例如,若是链接文字长度比上链接数量,如果大于5(可能有变化),则该链接可能是内容的文字链接;如果小于5,则有可能是网站链接或是大标题链接。综合考虑空间特征和内容特征,可以判断出是否是我们要求的内容。为方便信息的处理,参考聂卉等人[4]对主题内容的分类方法,信息可以分成内容块、图片块、链接块、非内容块,具体表示如表1。
经分析,将HTML源代码解析成DOM树的形式,如图1所示,图的左边是HTML代码文档,右边是其生成的信息块树。
2)启发式规则
本文是针对文本类型网页周围的噪音信息,以及网页中除标题型链接之外的其余链接文字进行去除。因此,对DOM树中节点进行分析,判别如流程图2中描述。以下针对流程图中各个判断点进行描述:
①vv链接性文本比重,该节点链接性文本与该节点所有文本的比值。周边噪音信息以链接性文字和广告图片较多,链接性文本中文本长度较大,这些节点中链接性文本占大部分(图片按量计算成文本),因此可设置链接性文本比重变量,与链接文本阈值进行比较,是否要删除该节点,以此删除链接性文本及图片。
②节点比,节点文本量与整个body节点文本量之比。为了迎合不同节点有不同的链接文本阈值,采用节点比重的概念。节点的文本量相对越大,节点的重要性就越大,成为主题信息可能性就越大。
③链接文本阈值,链接限制最小值+(链接限制最大值-链接限制最小值)*节点比重。不同的节点,链接性文字的比重会不相同。若使用单一的阈值来比较,会使得噪音去除过度或是基本没有效果,而节点比重,会决定一个节点的噪音性。因此,使用节点比重来决定链接文本阈值会使得对比值趋于实际化。
④节点链接平均长度,节点中所有链接文本的长度和与节点中所有链接数之比。为细化出标题型短链接和广告式长链接,需要利用节点中链接的平均长度和标题型短链接的最大值进行比较,若是节点链接的平均长度大于标题型短链接的最大值,则属于广告式的长链接;若是节点链接平均长度小于标题型短链接,则就属于标题型短链接。(图2)
2 实验说明
(1)实验环境
搭建JAVA运行环境,安装Eclipse开发工具;安装Python语言,加载解析工具Beautiful Soup;安装FireFox火狐浏览器,设置代理服务器。
(2)实验步骤 (如图3所示)
3实验结果
对网页去噪技术来说,必须对其结果进行验证,只有达到较高的准确率后才能推广应用。不同的算法需要采用不同的数据集进行验证,因此还没有统一的实验数据集,需要自己进行数据集的构建,并进行实验结果的验证。现在我们获取一定量的网页,通过数据流的处理后,在大量的实验结果集中选取两例,展示如图4,图5。由实验结果可以验证本文算法对文本类的网页去噪效果比较好。会考虑继续完善启发式规则库,并加入机器学习等方法,以期设计出一套可以处理多种网页风格的完整网页去噪方法。
参考文献
[1] LIN Shan—hua,HO Jan—ming.Discovering informative content blocks from Web documents[C]//Proceeding of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2002:588—593.
[2] 张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393.
Zhang Zhigang, Chen jing, Li Xiaoming. A HTML web page purification method [J]. Journal of personality and intelligence,2004,23(4).
[3] 荆涛,左万利.基于可视布局信息的网页噪音去除算法EJ].华南理工大学学报:自然科学版,2004,32(s1):84—87.
Jing Tao, Zuo Wanli. The web noise removal algorithm based on visual layout information EJ]. Journal of south China university of technology: natural science edition, 2004, 32 (s1) : 84-87
[4] 聂卉,张津华,基于网页规划布局的网页主题内容抽取[J].情报理论与实践,2012,31(1)
Nie Hui Zhang Jinhua, based on the contents of web page subject of web page layout extraction [J]. Journal of theory and practice of intelligence, 2012, 31 (1)
关键字:网页去噪;DOM树;风格树;启发式规则
中图分类号:TP393.092 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.08.029
本文著录格式:[1]陈雪,徐慧,沈家峻. 基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97
0 相关研究
随网民人数和网站数目的急速增长,网络上的信息也以一种前所未见的速度增长,以满足人们对信息的渴求。但在网页中,除了主题信息以外,还存在大量与主题无关的导航条、广告信息、版权信息以及修饰信息等内容,这些内容相对于主题内容来说就是噪音内容。从大量复杂的网页中迅速、有效地获得所需信息,并清除无用的噪音成为近几年大家研究的重要问题及难点问题。当前,国内外关于噪音信息去除的研究中,大多数是基于网页本身的特点和主题信息的特征,如LIN Shan—hua[1]等;或是运用启发式规则,如张志刚[2]等;或是基于DOM树,如刑涛[3]等;或是运用模板;或是基于机器学习等诸多的去噪方法。
本文针对文本类网页,主要在于定义不同于上述方法的启发式规则,但又能更好地满足噪音去除需求。本方法后续可加入机器学习等更好地优化本方法。
1 去噪思想
本文对文本类网页进行噪音去除,大体流程如下:首先获取网页,并通过Beautiful Soup解析器对获取的HTML网页进行解析,剩余承载网页内容、图片、链接以及非其他信息部分;其次根据网页标签分类表示成DOM树,并依据文本内容、图片、字符、链接及脚本等进行分类;最后依据定义的启发式规则对文本、图片、链接等阈值进行主体内容提取,将噪音信息去除,从而获得所需内容。其中,要点是DOM的形成和启发式规则的定义。下面对这两点分析:
1)分析HTML标签进行内容、图片、链接等分类。即一个块表达了什么形式的内容,有文字长度、链接数量、链接文字长度、图片数量、图片大小等等。例如,若是链接文字长度比上链接数量,如果大于5(可能有变化),则该链接可能是内容的文字链接;如果小于5,则有可能是网站链接或是大标题链接。综合考虑空间特征和内容特征,可以判断出是否是我们要求的内容。为方便信息的处理,参考聂卉等人[4]对主题内容的分类方法,信息可以分成内容块、图片块、链接块、非内容块,具体表示如表1。
经分析,将HTML源代码解析成DOM树的形式,如图1所示,图的左边是HTML代码文档,右边是其生成的信息块树。
2)启发式规则
本文是针对文本类型网页周围的噪音信息,以及网页中除标题型链接之外的其余链接文字进行去除。因此,对DOM树中节点进行分析,判别如流程图2中描述。以下针对流程图中各个判断点进行描述:
①vv链接性文本比重,该节点链接性文本与该节点所有文本的比值。周边噪音信息以链接性文字和广告图片较多,链接性文本中文本长度较大,这些节点中链接性文本占大部分(图片按量计算成文本),因此可设置链接性文本比重变量,与链接文本阈值进行比较,是否要删除该节点,以此删除链接性文本及图片。
②节点比,节点文本量与整个body节点文本量之比。为了迎合不同节点有不同的链接文本阈值,采用节点比重的概念。节点的文本量相对越大,节点的重要性就越大,成为主题信息可能性就越大。
③链接文本阈值,链接限制最小值+(链接限制最大值-链接限制最小值)*节点比重。不同的节点,链接性文字的比重会不相同。若使用单一的阈值来比较,会使得噪音去除过度或是基本没有效果,而节点比重,会决定一个节点的噪音性。因此,使用节点比重来决定链接文本阈值会使得对比值趋于实际化。
④节点链接平均长度,节点中所有链接文本的长度和与节点中所有链接数之比。为细化出标题型短链接和广告式长链接,需要利用节点中链接的平均长度和标题型短链接的最大值进行比较,若是节点链接的平均长度大于标题型短链接的最大值,则属于广告式的长链接;若是节点链接平均长度小于标题型短链接,则就属于标题型短链接。(图2)
2 实验说明
(1)实验环境
搭建JAVA运行环境,安装Eclipse开发工具;安装Python语言,加载解析工具Beautiful Soup;安装FireFox火狐浏览器,设置代理服务器。
(2)实验步骤 (如图3所示)
3实验结果
对网页去噪技术来说,必须对其结果进行验证,只有达到较高的准确率后才能推广应用。不同的算法需要采用不同的数据集进行验证,因此还没有统一的实验数据集,需要自己进行数据集的构建,并进行实验结果的验证。现在我们获取一定量的网页,通过数据流的处理后,在大量的实验结果集中选取两例,展示如图4,图5。由实验结果可以验证本文算法对文本类的网页去噪效果比较好。会考虑继续完善启发式规则库,并加入机器学习等方法,以期设计出一套可以处理多种网页风格的完整网页去噪方法。
参考文献
[1] LIN Shan—hua,HO Jan—ming.Discovering informative content blocks from Web documents[C]//Proceeding of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2002:588—593.
[2] 张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393.
Zhang Zhigang, Chen jing, Li Xiaoming. A HTML web page purification method [J]. Journal of personality and intelligence,2004,23(4).
[3] 荆涛,左万利.基于可视布局信息的网页噪音去除算法EJ].华南理工大学学报:自然科学版,2004,32(s1):84—87.
Jing Tao, Zuo Wanli. The web noise removal algorithm based on visual layout information EJ]. Journal of south China university of technology: natural science edition, 2004, 32 (s1) : 84-87
[4] 聂卉,张津华,基于网页规划布局的网页主题内容抽取[J].情报理论与实践,2012,31(1)
Nie Hui Zhang Jinhua, based on the contents of web page subject of web page layout extraction [J]. Journal of theory and practice of intelligence, 2012, 31 (1)