基于页面分析的主题网络爬虫的研究

被引量 : 27次 | 上传用户:ssxjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上Web资源的迅猛增长,在庞大的互联网上,快速准确全面地找到与用户查询主题相关的信息变得越来越难。人们对检索质量和速度的要求越来越高,由于传统的全网网络爬虫爬取的主题范围过于广泛,信息的及时性及与主题的相关性都无法保证,导致其检索结果的时效性、准确性及检索效率都不尽人意,已满足不了特定领域用户的精确搜索的需求。为此,本文展开了对高页面时效性、高内容相关性的主题网络爬虫的研究。本文对目前存在的网络爬虫的种类、原理及发展状况进行了研究,对比分析了通用爬虫和主题爬虫的结构及工作原理,展示了主题网络爬虫的各项优势。本文通过对《知网》的语义分析及语义相关性理论的研究和对传统向量空间模型的分析,针对原有的页面内容与主题的相关性判定算法存在的缺陷,提出了一种基于页面分析的主题网络爬虫。该主题爬虫摒弃了传统主题爬虫在关于页面与主题相关性判定所采用的传统向量空间模型算法,采用了结合《知网》提出的具有语义分析功能的基于Web页面特点的改进向量空间模型算法,实验表明该模型在进行页面内容与主题相关性判定过程中起到了有效作用。本文的重点是研究基于页面分析的主题网络爬虫的页面过滤算法。它采用《知网》语义分析技术和向量空间模型相结合的方法对传统的页面与主题相关性判定算法——向量空间模型(VSM)进行改进。改进后的算法利用《知网》进行词义消歧,相关度计算以及主题文本义原集的提取,同时考虑到Web网页的半结构化特点,即Web网页上不同位置的文本特征项对整个Web页面主题内容的表达能力是不同的,引入了适应Web页面结构的位置权重,采用多层向量空间模型将Web页面划分成N层结构,不同层次的文本结合其位置权重分别计算与主题的相似度。该算法在加入语义分析的基础上更适合于主题爬虫的Web页面的相似度计算,对主题网络爬虫抓取页面的准确率、页面利用率及爬虫的效率上都有所提高。
其他文献
新中国成立六十年以来,法律作为推动政治民主、促进经济腾飞、实现文化繁荣、保障社会稳定的基础性规范,在维持公共权力与公民权利的和谐方面发挥着不可替代的作用。法律传播
在近年来学生体质健康状况不断下降的形势下,本文通过普通高等院校与军事院校学生体质健康数据的对比,寻找两种院校学生的体质差距,并以此为突破口,深入分析差异原因。从教学
人力资本会计是以人力资本理论为基础而建立的一个会计分支。人力资产是人力资本所有者通过人力资本投资形成的资产,人力资产投入企业,有三种基本交易方式,一是企业直接支付
近年来,中外经济文化交流日益频繁。悠久的历史、灿烂的文化以及丰富的旅游资源,吸引了大量海外游客来华旅游,这极大地刺激了中国旅游业的发展,使其成为国家经济建设中不可或
由于灌装机同步带精确平稳的要求,其动态特性分析尤为重要。本文在系统归纳总结国内外同步带发展的基础上给出了同步带输送的结构和性能的特点。以某自主开发的新型液态灌装
<正> 调教猪定点排粪尿,可减轻扫圈的劳动,还可保持圈舍清洁干燥,有利寒季保暖,促进猪的生长发育。怎佯调教猪定时定点排便呢?笔者总结45年抓科学养猪的经验,介绍方法如下: 1
期刊
分析了液压前叉减振器与汽车筒式减振器示功图之间的差别以及影响液压前叉减振器示功图形状的主要因素,根据示功图的特点提出了对其进行试验和评价的几点看法。
目前我国道路交通事故死亡人数居世界第一,而且交通事故居高不下,全国道路交通安全形势严峻。随着车辆的日益增多,由于驾车者对道路事故处置经验不足、事故检测设施缺乏、救
铁矿石是我国国民经济发展的重要原材料,随着我国钢铁工业的发展,国内铁矿石供给已经严重不足,需要大量从巴西、澳大利亚、印度、南非等国家进口铁矿石。铁矿石运量的飞速增
乱收费是国家行政征收权的滥用,不仅严重阻碍了我国经济社会健康有序发展以及和谐社会的建设,而且也是在尊重私有财产权的宪政制度下,对公民财产权赤裸裸的侵犯,这给我国的行