基于网页结构的网页去噪算法设计

来源 :软件 | 被引量 : 0次 | 上传用户:dayoudian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文对网页去噪的定义和分类、经典方法以及实验方法等进行了研究,在重定义启发式规则的基础上,针对文本类网页,设计新的算法,并用代码进行实现,在对比结果中验证,该算法能很好的解决文本类网页噪音问题。
  关键字:网页去噪;DOM树;风格树;启发式规则
  中图分类号:TP393.092 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.08.029
  本文著录格式:[1]陈雪,徐慧,沈家峻. 基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97
  0 相关研究
  随网民人数和网站数目的急速增长,网络上的信息也以一种前所未见的速度增长,以满足人们对信息的渴求。但在网页中,除了主题信息以外,还存在大量与主题无关的导航条、广告信息、版权信息以及修饰信息等内容,这些内容相对于主题内容来说就是噪音内容。从大量复杂的网页中迅速、有效地获得所需信息,并清除无用的噪音成为近几年大家研究的重要问题及难点问题。当前,国内外关于噪音信息去除的研究中,大多数是基于网页本身的特点和主题信息的特征,如LIN Shan—hua[1]等;或是运用启发式规则,如张志刚[2]等;或是基于DOM树,如刑涛[3]等;或是运用模板;或是基于机器学习等诸多的去噪方法。
  本文针对文本类网页,主要在于定义不同于上述方法的启发式规则,但又能更好地满足噪音去除需求。本方法后续可加入机器学习等更好地优化本方法。
  1 去噪思想
  本文对文本类网页进行噪音去除,大体流程如下:首先获取网页,并通过Beautiful Soup解析器对获取的HTML网页进行解析,剩余承载网页内容、图片、链接以及非其他信息部分;其次根据网页标签分类表示成DOM树,并依据文本内容、图片、字符、链接及脚本等进行分类;最后依据定义的启发式规则对文本、图片、链接等阈值进行主体内容提取,将噪音信息去除,从而获得所需内容。其中,要点是DOM的形成和启发式规则的定义。下面对这两点分析:
  1)分析HTML标签进行内容、图片、链接等分类。即一个块表达了什么形式的内容,有文字长度、链接数量、链接文字长度、图片数量、图片大小等等。例如,若是链接文字长度比上链接数量,如果大于5(可能有变化),则该链接可能是内容的文字链接;如果小于5,则有可能是网站链接或是大标题链接。综合考虑空间特征和内容特征,可以判断出是否是我们要求的内容。为方便信息的处理,参考聂卉等人[4]对主题内容的分类方法,信息可以分成内容块、图片块、链接块、非内容块,具体表示如表1。
  经分析,将HTML源代码解析成DOM树的形式,如图1所示,图的左边是HTML代码文档,右边是其生成的信息块树。
  2)启发式规则
  本文是针对文本类型网页周围的噪音信息,以及网页中除标题型链接之外的其余链接文字进行去除。因此,对DOM树中节点进行分析,判别如流程图2中描述。以下针对流程图中各个判断点进行描述:
  ①vv链接性文本比重,该节点链接性文本与该节点所有文本的比值。周边噪音信息以链接性文字和广告图片较多,链接性文本中文本长度较大,这些节点中链接性文本占大部分(图片按量计算成文本),因此可设置链接性文本比重变量,与链接文本阈值进行比较,是否要删除该节点,以此删除链接性文本及图片。
  ②节点比,节点文本量与整个body节点文本量之比。为了迎合不同节点有不同的链接文本阈值,采用节点比重的概念。节点的文本量相对越大,节点的重要性就越大,成为主题信息可能性就越大。
  ③链接文本阈值,链接限制最小值+(链接限制最大值-链接限制最小值)*节点比重。不同的节点,链接性文字的比重会不相同。若使用单一的阈值来比较,会使得噪音去除过度或是基本没有效果,而节点比重,会决定一个节点的噪音性。因此,使用节点比重来决定链接文本阈值会使得对比值趋于实际化。
  ④节点链接平均长度,节点中所有链接文本的长度和与节点中所有链接数之比。为细化出标题型短链接和广告式长链接,需要利用节点中链接的平均长度和标题型短链接的最大值进行比较,若是节点链接的平均长度大于标题型短链接的最大值,则属于广告式的长链接;若是节点链接平均长度小于标题型短链接,则就属于标题型短链接。(图2)
  2 实验说明
  (1)实验环境
  搭建JAVA运行环境,安装Eclipse开发工具;安装Python语言,加载解析工具Beautiful Soup;安装FireFox火狐浏览器,设置代理服务器。
  (2)实验步骤 (如图3所示)
  3实验结果
  对网页去噪技术来说,必须对其结果进行验证,只有达到较高的准确率后才能推广应用。不同的算法需要采用不同的数据集进行验证,因此还没有统一的实验数据集,需要自己进行数据集的构建,并进行实验结果的验证。现在我们获取一定量的网页,通过数据流的处理后,在大量的实验结果集中选取两例,展示如图4,图5。由实验结果可以验证本文算法对文本类的网页去噪效果比较好。会考虑继续完善启发式规则库,并加入机器学习等方法,以期设计出一套可以处理多种网页风格的完整网页去噪方法。
  参考文献
  [1] LIN Shan—hua,HO Jan—ming.Discovering informative content blocks from Web documents[C]//Proceeding of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2002:588—593.
  [2] 张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393.
  Zhang Zhigang, Chen jing, Li Xiaoming. A HTML web page purification method [J]. Journal of personality and intelligence,2004,23(4).
  [3] 荆涛,左万利.基于可视布局信息的网页噪音去除算法EJ].华南理工大学学报:自然科学版,2004,32(s1):84—87.
  Jing Tao, Zuo Wanli. The web noise removal algorithm based on visual layout information EJ]. Journal of south China university of technology: natural science edition, 2004, 32 (s1) : 84-87
  [4] 聂卉,张津华,基于网页规划布局的网页主题内容抽取[J].情报理论与实践,2012,31(1)
  Nie Hui Zhang Jinhua, based on the contents of web page subject of web page layout extraction [J]. Journal of theory and practice of intelligence, 2012, 31 (1)
其他文献
大学本科工科教育对于中国实施创新驱动发展战略具有重要意义。本文以东南大学和里海大学为例,从知识传授思维、授课内容、时间分配及其与作业的关系,以及学生学习行为等几方
摘 要: 小学阶段由于受到年龄、语言环境的影响和课时的限制,小学英语教学效果不理想。究其原因,无非是学生对英语基础知识掌握不牢,学习方法单一,教师指导不到位。在小学英语课堂教学中,要从基础抓起,重视音标、单词教学,采取游戏教学法,培养小学生英语学习兴趣,从而提高小学英语教学实效性。  关键词: 小学英语 基础性教学 教学思考  小学阶段受到年龄、语言环境的影响和课时的限制,小学英语教师教学要
结合高等职业院校人才培养工作评估方案中数据采集的要求,将模型驱动框架技术在实际的数据采集平台开发过程中的应用进行分析与探讨,实践证明,该改系统在实际应用中具有良好的可
[摘要]制鞋是轻工业的重要组成部分,对国家经济发展具有重要的支撑作用。随着经济发展全球化趋势不断加强,以及国内市场日渐饱和,面向国际是我国制鞋企业的全新发展方向。基于此,文章就针对我国制鞋企业国际营销出现的一些问题作出分析,然后针对性地提出了国际营销的具体策略,以期能够对制鞋企业提供参考,促进其国际竞争力。  [关键词]制鞋企业;国际营销;自主品牌  随着我国的国际影响力和经济实力不断提升,我国的
脑梗死以其发病率、致残率、病死率高及神经损伤的难治性等因素,备受神经科医生关注,并已成为严重的社会-医学-经济问题。脑梗死属中医的“中风”范畴,考诸历代文献,记载甚多,数千
急性肾功能衰竭(ARF)是急性高血压性脑出血术后的常见并发症,其转归直接影响着患者预后。笔者所在科室于2008年1月~2010年10月手术治疗高血压性脑出血患者32例,其中11例术后合并AR
高职院校是以培养用人单位所需人才的教育场所,实践教学评价关系到高职院校人才培养的质量,职业教育自身培养目标的实现和整个教学环节的质量。近十几年来,我国对高职院校实
学风建设是大学生教育管理的根基所在,设计类专业学生思维活跃、个性张扬,不易接受枯燥刻板的教育。面对设计类专业的情况和学生特点,南京理工大学设计艺术与传媒学院通过专