聚焦爬虫相关论文
Internet搜索已经成为Web上最重要的应用之一,人们经常需要到Google、Baidu等搜索引擎去查找想要的信息,对于科研人员更是如此。为了......
随着World Wide Web(WWW)的飞速发展,整个Web信息已经被各种各样可搜索的在线数据库所深化。这些信息被隐藏在Web查询接口之后,由......
学位
近些年随着互联网信息量的快速增长,如何准确、快速、高效地从互联网上获取信息的问题变得越来越突出,面向主题的聚焦爬虫技术应运......
本体的概念最初起源于哲学领域,古希腊哲学家亚里士多德在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论”,是客观存......
BitTorrent(简称BT)作为一种高效的P2P文件共享协议为越来越多的人所使用和关注,也成为学术界研究的热点。目前的BT发布站点或搜索......
学位
万维网信息的爆炸式增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需......
Deep Web数据源的发现及其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出了......
学位
随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们......
主题搜索引擎是搜索引擎的细分和延伸,为特定领域、特定人群或特定需求提供定向信息和个性化信息检索服务。聚焦爬虫是主题搜索引擎......
当今,互联网的爆炸式发展,电子商务的蓬勃发展,带来了海量的数据,面对这个海量、异构的大数据,各电子商务网站都需要从自身平台和......
海面重点舰船识别是目标检测领域重点方向之一。传统方法一般基于对遥感图像的处理来完成任务,然而现有的遥感图像监测技术往往受......
随着互联网的迅速发展和普及,互联网已成为人们获取信息的重要渠道;同时,它也成为人们表达自己观点、看法、情感的平台。因此,在各......
近年来,随着互联网的飞速发展,网络已成为人们获取信息、传递信息的重要途径,随之而来的是网络信息呈指数级的爆炸性增长。互联网......
本文简要介绍科技情报信息采集与发布平台的搭建、功能及特点,详细论述了平台涉及到的关键技术、实现原理和科技情报门户的开发建设......
聚焦爬虫技术聚焦网络爬虫也就是主题网络爬虫,它增加了链接评价和内容评价模块,其爬行策略实现要点就是评价页面内容以及链接的重......
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引......
针对单一价值评价的聚焦爬虫搜索策略存在主题漂移等问题进行了研究,充分利用量子进化算法所具有的智能性,提出一种新的聚焦爬虫爬......
网络爬虫是搜索引擎的重要组成部分。针对目前聚焦爬虫搜索策略的不足,提出了一种新的搜索策略解决方案。在搜索过程中对适应度高于......
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内......
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一......
通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题。从数据挖掘和机器学习的角度出发,提出一种基......
本文通过对垂直搜索引擎的工作原理与主要技术进行分析,给出了一种基于开源Nutch上实现中文垂直搜索引擎的方案。......
微博平台有用户群大、公众参与性强、实时性等优点,同时微博平台信息又具有信息真伪难辨、地址信息模糊等缺点。本文以芦山地震为......
近年来大数据的应用逐渐渗透到各个领域中,在体育领域中的应用更是蓬勃发展,有着较为成功的应用,数据的意义已越来越大,在比赛预测......
研究如何准确快速获取Deep Web网络资源.提出了一种基于主题的Deep Web聚焦爬虫框架,该框架主要包含了爬行模块、网页分类模块、链......
在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫。该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自......
本文提出了基于本体的气象领域聚焦爬虫,首先利用Protégé工具构建气象领域本体,将本体作为领域知识库引入到聚焦爬虫中,......
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(DeepWeb)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRan......
本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法。从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链......
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别......
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填......
介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法......
针对聚焦爬虫主题描述精确度和主题相似度计算准确度偏低造成的主题覆盖率不足和爬取准确度偏低的问题,提出一种主题自适应聚焦爬......
该文分析了聚焦爬虫的工作原理,在此基础上给出了聚焦爬虫搜索的特定主题——Open Access相关资源,提出了一个面向特定主题的聚焦......
网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求。本文首先扩展了标签树......
随着Internet和WWW (World Wide Web)的迅速发展,Web信息呈现指数级的增长,用户在这个庞大的信息库中查找需要的信息越来越力不从......
目的快速、准确地获得公共卫生服务系统的医疗数据,并进行数据整理,为建立人群健康风险评估模型提供数据基础。方法运用聚焦网络爬......
在高等教育由卖方转入买方时代的大环境下,不断提高高校的招生能力已成为热点话题之一。从招生决策与市场保持一致的观点出发,运用......
搜索引擎的发展使得互联网的使用变得更加便捷。人们通过搜索引擎,可以方便地从互联网上搜索到各行各业的相关信息。互联网的数据......
分析了聚焦爬虫的工作原理和关键技术,对几种开源网络爬虫的功能特点和使用范围进行比较,而后通过改造Heritrix软件的关键模块和功......
随着信息技术的发展,农业信息化成为现代农业发展的必然需求。针对目前农业信息化服务信息整合度低、实时性信息不够等问题,提出了......
为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小牛境遗传算法进行全局寻优的搜索策略。改进遗......
聚焦爬虫在搜索引擎中有着至关重要的作用。为解决传统聚焦爬虫抓取特定领域的网页信息效率低下问题,在分析传统聚焦爬虫算法的基......
判定链接锚文本与主题的相关度、评估链接的优先级并过滤不相关的链接是实现聚焦爬行的关键。通过判定链接所在页面是否主题相关、......