基于Best-First和PageRank算法的农业信息主题爬虫的研究与设计

来源 :吉林农业大学 | 被引量 : 0次 | 上传用户:fan20090603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技的迅猛发展,人类已经进入了一个信息大爆炸的时代,如何从繁杂的信息资源中提取有效的信息成为了学者们研究的重点内容,谷歌、百度等搜索引擎的出现很好的解决了这一问题。它能够对用户提交的查询请求进行处理,返回给用户想要搜索的信息。
  目前虽然我国拥有很多涉农网站,如中国农业信息网、中国农村网、农联网、农业智能搜索网等,这些网站拥有丰富的农业信息资源,符合农业用户的查询要求。但是由于没有规范的形式、农业信息分布分散、信息更新不及时,这些传统的涉农网站的查准率及稳定性比较低,不能满足农民及农业工作者针对特定主题的信息查询的目的。本文研究与设计了一个农业信息主题爬虫程序,尤其是对主题爬虫的搜索策略展开了深入的研究对比,改进了Best-First算法,以使改进算法的农业信息主题爬虫程序在爬取性能上得到最优。
  本文的主要研究内容如下:
  (1)研究了网络爬虫的相关理论及技术。主要对通用网络爬虫、主题网络爬虫的基本原理、搜索策略进行了介绍与对比。并对主题爬虫所用到的关键技术进行了陈述,为接下来的农业信息主题爬虫程序构建打下了坚实的理论基础。
  (2)对网络爬虫的经典算法PageRank算法和Best-First算法进行深入研究,并针对Best-First算法利用向量空间模型计算权重只考虑特征词出现的次数的这一特点,按照加权频率的方法计算权重,综合考虑网页的父页面相似度、锚文本相似度及HTML修饰标签三方面的内容来计算网页与主题的相似度,通过取平均值的形式确定网页与主题的相似度。针对Best-First算法“贪婪性”的缺点,提出了改进策略,通过设定相应的爬行深度和阈值,可以使主题爬虫既考虑立即回报又考虑未来回报,有效的改善了主题爬虫“主题飘移”的缺点。
  (3)构建农业信息主题爬虫对改进后的新算法评价有效性。本文将改进的Best-First算法进行了对比试验,实验证明,改进后的新算法在农业信息主题相关页面的准确率和召回率上都表现出较好的效果。
其他文献
肺是人体进行呼吸的重要一环,健康的肺功能是维系生命的本源,胸部进行X光照射是最常见和最便利的医学影像检查之一。影像学医师在根据胸片影像来诊断肺部疾病的过程中,依据自身的读片诊断经验对胸片影像中对病理影像进行定性分析,在诊断结果上存在很大的主观性,可能出现不同的医生会得到不同的诊断结果。同时,对图片中的图像进行分类与识别是深度学习算法中的一大重点与难点。近年来,研究人员通过深度学习算法对人脸、场景等
学位
在线核选择决定了假设序列所在的再生核希尔伯特空间,是在线核方法理论研究与实际应用的关键。已有的在线核方法大多预先在全体样本上应用离线核选择方法或先验地进行核选择,但这不能保证在线核方法单趟,具有较高的计算复杂度且缺乏可靠的理论保证。针对这一现状,提出在线核选择的随机素描理论与方法,基于随机素描方法构造可增量维护的假设空间素描,建立可靠的在线核选择理论,给出具有理论依据的在线核选择准则,设计计算高效
语音信号不仅承载言语信息,同时还包含说话人个性化语音信息。深入了解声道形态及其声学作用,有助于揭示说话人个性化发音机理。以往研究发现声道下咽腔结构与说话人个性化语音特性紧密相关。然而,之前对于声道下咽腔特性的探究主要针对男性受试者,而女性受试者几乎没有。鉴于此,本文基于核磁共振成像观测手段,将性别差异作为研究重点,探究了不同性别间受试者声道下咽腔的形态学特性和声学特性以及二者之间的因果对应关系,揭
新一代计算技术提升了人类数据感知、分析处理、认知决策的能力,促进了不同行业领域、不同学科的融合。文化遗产保护作为一个典型的数字人文和计算社会科学的新兴交叉学科,不仅仅是简单地将计算技术用来提高领域专家效率或拓展其研究广度和深度,而且由于文化遗产保护的特殊性和复杂性,也对计算技术理论方法提出了挑战。  面向文化遗产预防性保护目标,针对风险量化分析这一核心问题,本文选择最具代表性的不可移动文物类型之一
学位
合成孔径雷达(Synthetic aperture radar, SAR)是一种主动微波成像系统,具有全天时、全气候和穿透力强的特点,是一种重要的对地观测手段,已广泛应用于军事和民用领域。于是SAR图像解译已成为遥感领域关注的热点,而SAR图像分割又是SAR图像解译的基础,对后续的图像理解起着关键作用。  由于SAR图像的成像机理,SAR图像含有固有的乘性斑点噪声,而且SAR图像存在灰度不均匀,弱
本文描述了matlab以简化方式处理图像的一些可能性。我们将这篇论文分为两部分。第一部分是图像处理中使用的一些技术(裁剪图像,旋转图像,去除噪声并将其删除,RGB图像直方图,获取图像的像素值,更改图像的像素值,调整图像大小,RGB格式,检测图像中的纹理区域)。另外还介绍了如何使用matlab从图像中获取一些信息。(图像坐标系,工具箱中的图像类型,GPU上的图像处理,从工作区将图像数据导入图像查看器
学位
电驱动车辆是指一类由电动机直接或间接驱动车轮运行的运载对象,主要包括乘用电动汽车和特殊用途的电动轮车,因其具有节能减排的优势为应对气候变化与推动绿色交通的重要运载工具。然而此类车辆面临着所谓“里程焦虑”与节能降耗需求。加大电池容量与能量密度、快速充电技术、充电站布局等是目前解决“里程焦虑”的主要途径,但依然存在着车重增加,电池安全与充电站覆盖等诸多问题。为此,基于行驶状态估计的车辆能耗优化控制(亦
数字IC集成电路,尤其是FPGA硬件电路的版权保护技术是半导体技术发展的重要核心问题之一。目前尽管部分核心技术产品已得到了众多半导体公司及研究机构的广泛应用,但是IC芯片硬件安全技术在给设计者带来安全保障的同时,也带来了许多潜在的安全隐患。因此,如何研究解决IC芯片电子产品中FPGA硬件电路版权的安全保护与实时认证问题,已成为了当前FPGA硬件安全电路设计领域急需解决的问题之一。本文利用信息隐藏、
学位
水产养殖是农业的重要组成部分,多年来产量处于是世界首位,是一个不断发展的综合性研究领域。为了深入了解水产养殖业发展现状及发展趋势,以及渔民喂养方式和获取信息途径,我们前往“浙江省淡水水产研究所八里店实验综合基地”实地调研,通过一个月的实地观察以及工作人员和周围养殖户的反馈,我们发现养殖户多以经验养殖为主,养殖技术以及鱼病预防等措施更新不及时,遇到问题虽通过网络途径查询,却出现各种错综复杂的信息,导
学位
随着精准农业概念在我国的进一步推广,农业生产对智能机器人的需求也变得更加的旺盛。在农业智能机器人领域,目标障碍物识别技术一直是关系到机器人能否自动行走避障的关键。本文提出了一种基于立体视觉的光谱聚类算法,并把该算法应用到农业智能机器人障碍物检测的研究中。  本文为了降低在伪目标存在的条件下,由于伪目标的干扰引起的算法误检概率,进而提高本系统在非结构化的复杂环境中对目标的有效识别能力,提出了一种基于