面向大学领域的聚焦爬虫设计与实现

来源 :山西大学学报(自然科学版) | 被引量 : 0次 | 上传用户:treef620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从海量的Web资源中获取有用的信息是Web研究领域的重要研究内容。针对特定领域信息的获取,目前主要采用聚焦爬虫策略。该策略只爬取与主题相关的页面,忽略不相关页面。但目前的聚焦爬虫技术在爬行效率和页面质量两个方面仍存在一定的不足。因此,本文主要从这两个方面进行改进,并在此基础上设计和实现了一个面向大学领域的聚焦爬虫系统。该系统采用基于改进的Context Graphs方法的搜索策略和基于支持向量机(SVM)的目标页面分类器方法获取有用的资源。实验结果表明该系统在爬虫结果的收益率和准确率上分别提高了10%和8%。
其他文献
目的观察分析益肾健脾汤辨证治疗脑梗死后血管性痴呆的临床方法及效果。方法 60例脑梗死后血管性痴呆患者,随机分为观察组和对照组,各30例。对照组患者进行常规西医治疗,观察
情绪是一种复杂的心理和生理状态,我们每个人都会有,不管是刚出生的小孩儿,还是经历丰富的老人。情绪常和心情、性格、脾气、目的等因素互相作用,也受到激素水平和一些神经递质的
报纸
目的:观察三七苦碟子提取物对急性心肌缺血模型大鼠的药效学作用,探讨其对冠心病的防治作用及机制。方法:采用消心痛及复方丹参滴丸为阳性对照药,以急性心肌缺血模型大鼠为研
绘本教学中教师要以绘本带情境,以情境带教学。文章指出学前教育绘本教学的误区,阐述绘本"情境法"教学的有效策略。要创设情境导入绘本教学,根据绘本故事生成情境,阅读后利用
本文从语用学的角度,对370封汉语电子投稿信进行了言语行为和语用策略方面的研究。我们把汉语电子投稿信语篇看成是一个行为序列,并对它进行了由浅入深的分析。首先,从篇章结构
随着我国政务信息化的推进,原有人事管理模式已经跟不上社会发展的步伐。人事管理信息系统是人事政务信息化的重要组成部分,集档案管理、劳资分配、职称评聘、干部任免、在岗
目的探讨血管内皮生长因子(vascular endothelial growth factor,VEGF)基因转染大鼠内皮祖细胞的方法,分析转染VEGF基因对内皮祖细胞生长的影响。方法分离大鼠骨髓内皮祖细胞
语言研究者一直以来的一个研究焦点是可以影响测试表现和测试分数的因素。巴克曼(1990)提出了一个理论模式用来研究三种系统差异源对考试分数的影响。它们分别是交际语言能力
[目的]建立水稻稻飞虱发生程度预报方程,从气象条件的角度对每年的发生程度进行预测,指导稻飞虱的防治工作。[方法]利用江苏泰州地区历年气象资料和水稻稻飞虱发生资料,选取大量
在多年实践基础上,提出了包括种子采收、处理及沙藏催芽,育苗地选择与整地,春秋季播种,肥水及病虫害防治等在内的美国黑核桃实生苗育苗技术,及包括砧木苗选择,优良核桃新品种