Web网页去噪及信息提取算法的研究与应用

被引量 : 7次 | 上传用户:wsttkl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展与普及,越来越多的人依赖于从网络上获取信息,但是为了维护商业利益和推广的需要,网络上充斥着大量的噪音信息,严重干扰了人们对信息的获取,基于此本文提出了一种基于DOM (Document Object Model)树的网页信息提取方法。通过对常用的网页去噪和信息提取方法进行分析发现,某些基于DOM实现的网页提取方法并不能判断不含有超级链接的网页噪音,而且不能处理正文分布在DIV标签中的情况,去噪效果不理想。本文从以下几个方面解决了上述问题:1.利用VIPS (Vision Based Page Segmentation)实现网页内容分块,有效的划分开了与网页主题相关的信息块和噪音信息块。2.将所划分得到的块转化为DOM树形结构。用VIPS方法划分出来的每个内容块都是一个树形结构,将网页进行了更加细粒度的划分。3.用递归方法对DOM树中存在于标签中的节点信息进行提取,有效的解决了主题信息存在于TABLE和DIV标签中的问题。根据网页标题与结点中词共现频率以及文本间的相似度实现网页正文内容的提取。在计算网页标题与结点词共现频率时,将标题中的词赋予较大的权重,文本中的节点词赋予较小的权重,有效提高了信息提取的准确性。最后,本文利用JTidy和爬虫的有关知识对系统进行了简单的实现,根据待爬行URL与主题的相关度,把满足条件的URL加入到待提取队列,并且根据正在爬行的网页正文内容与新闻类别主题的相似度,下载满足条件的网页,提取到相关新闻网页上新闻的标题、内容、时间等有关信息并保存到数据库中。经过对网页信息进行提取测试,表明了算法的有效性。
其他文献
基因佐剂是免疫佐剂家族的成员之一,随着研究的深入逐渐发现基因佐剂在佐剂应用中的重要价值。简要概括基因佐剂的概念和作用机制,同时总结了基因佐剂候选靶基因的几个发展方
期刊
氢气是一种新型的清洁高效能源,制氢技术的创新是目前研究的热点。将新型的技术及材料应用到生物制氢工艺中,从而促进生物制氢技术的产氢效率和工程应用是研究的重点之一。该
随着电力系统的飞速发展,无论是工业还是军用,对电信号的处理要求越来越精确,相应的作为电信号的一个重要的指标的频率,也越来越受到关注,由此频率测量的精度要求也是越来越
本文首先对桥钢公司轧钢车间导入ISO9000系列质量管理体系前的质量管理进行介绍,该轧钢生产线由于存在关键技术岗位职责不明确、关键过程控制不准确、轧辊装配不规范、生产数
摘要:沥青水泥砂浆车是无砟轨道式高速铁路施工不可或缺的关键设备之一,具有沥青水泥砂浆物料储存与输送、生产砂浆的功能。高铁砂浆要求各配料配比严格,对生产设备的计量装置
<正>(2005年1月7日日)督查工作很重要,它是全局工作中不可缺少的一个重要环节。在一定意义上说,没有督查就没有落实,没有督查就没有深化。做好督查工作,对于推动党的路线方针
目的:探讨应用RNA干扰(RNA interference,RNAi)技术沉默Ang2、Tie2基因及其在体外抑制血管生成的研究,为将来进一步进行抑制肿瘤血管生成的动物实验研究奠定基础,为肿瘤的基
随着消费者对商品包装的要求提高,金银卡纸和镭射纸的防伪功能及亮丽效果使其在包装行业应用越来越广泛。但由于金银卡纸表面存在金属光泽,当入射光照射时,会有较强的镜面反射发
矿井工作面受底板水害的威胁日益严重,工作面在回采前进行底板岩层赋水性探测变得尤为重要。矿井直流电法特别是电穿透技术对岩层赋水性反应敏感,目前已广泛应用于底板水害探