【摘 要】
:
互联网已经成为一个巨大的海量信息空间,人们在互联网上搜索信息主要利用百度等通用搜索引擎,这类搜索引擎功能已经十分强大,基本可以满足用户的需求,但是当用户搜索一些面向
论文部分内容阅读
互联网已经成为一个巨大的海量信息空间,人们在互联网上搜索信息主要利用百度等通用搜索引擎,这类搜索引擎功能已经十分强大,基本可以满足用户的需求,但是当用户搜索一些面向主题的信息时,这类搜索引擎往往显得力不从心。垂直搜索引擎的出现,正是为了解决此类问题。本文首先介绍了垂直搜索引擎的特点及工作原理,然后详细分析了开源网络爬虫Heritrix的系统结构。在此基础上,提出了设计特定的解析器,解析特定网站,以及扩展Heritrix的链接处理器,抓取特定链接,来实现定制抓取的目的;然后通过消除robots.txt对个别处理器的影响,以及引入哈希算法,实现了高效、多线程抓取的目的。本文采用Lucene作为全文检索引擎,首先深入剖析了Lucene的系统结构,并详细阐述了Lucene的倒排索引技术和索引结构,然后通过分析Lucene原有排序算法,得知其只考虑网页内容本身,不能反映出网页的重要性的不足,通过引入基于链接分析的PageRank算法,改进了Lucene原有排序算法,排序结果更加符合用户预期。本文在上述研究的基础上,根据汽车爱好者查询汽车信息的一般要求,建立了一个面向汽车主题的垂直搜索引擎,设计了各个子系统,并实现了改进的爬虫和排序算法。最后,本文在建立的垂直搜索引擎系统上,首先通过查询实验,验证了垂直搜索引擎相对通用搜索引擎的直观优势,然后通过对改进前后的爬虫抓取网页速度对比,以及对改进后爬虫在不同线程数、不同运行时间的条件下抓取网页速度的分析,验证了改进后的爬虫性能有了较明显的提高,最后通过对比排序算法改进前后的排序结果,验证了改进后的排序算法在符合用户预期查询结果方面,得到了较好的改善。
其他文献
索杆铰接式伸展臂由绳索、杆件和球铰等部件组成,由于质量轻盈及较高的稳定性,越来越多地被应用于各种航天器之中。索杆铰接式伸展臂展开过程的动力学建模方法与数值仿真研究
近几年,社交网络在互联网中的地位越来越重要,已经被广泛地进行了研究,因为人们更愿意在社交网络中分享他们的想法和心情状态,社交网络中蕴藏着大量有价值的信息,利用社交网
近年来,随着我国人均机动车保有量的快速增长,道路交通安全形势面临着愈加严峻的挑战。交通管理部门通过在高速公路和城市路口安装越来越多的卡口摄像机等设备来获取车辆图像,然后结合后台的智能交通系统分析,以此加大对车辆的监控管理。车辆检索,也被称为“以车搜车”,是智能交通系统中最重要的组成部分之一。因此,车辆检索技术的研究具有重要的应用价值。由于车辆图片数目的快速增多以及车辆类别数的不断增加,传统的检索方
P2P技术进入我国市场的时间并不长,但近几年来,随着我国宽带技术的发展和我国网民对P2P的逐渐认可,国内的P2P市场正在日益发展壮大,相关业务己占据互联网业务总量的70%以上。巨大
随着人们生活水平的不断提高,皮革产品越来越深入到人们的生活中,人们对皮革产品的质量要求越来越高。另一方面,通过人工检测皮革质量的速度和精确度已不能满足社会发展的需
随着网络技术的成熟,以Internet为基础平台的分布式系统取得了快速的发展,其表现为一个由多个软件服务实体所组成的动态协作系统,在协作处理过程中涉及大量的数据处理和模型
随着计算机辅助计算、多媒体应用以及网络等技术的发展,网络教学成为一种最具应用前景的远程教育模式,并从根本上改变了人们的学习方式。自动阅卷系统作为网络教学中一个重要组
纹理图像分割是图像处理和机器视觉领域中的一个重要研究内容,是连接低级视觉和高级视觉的纽带,被广泛应用于医学图像处理和遥感图像分析等领域。根据图像中不同区域的纹理特
模型检测(Model Checking)是由E.M.Clarke与E.A.Emerson提出的一种形式化验证方法。其基本思想是在有限状态转移系统上,通过穷尽搜索的方法,验证系统规范是否得到满足。它广泛
对于人类基因组的整体探究工作已进入“后基因组时代”,这是一个以揭示、阐明、挖掘基因组功能为核心研究对象的时代,在测序技术大力发展的东风下,基因表达产物和表观信息的