基于Heritrix和Lucene构建的垂直搜索引擎的研究与实现

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:yvonnechan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的高速发展,人们生活水平的不断提高。笔记本电脑正逐步走进千家万户的家中,成为人们工作、生活、娱乐不可或缺的重要组成部分。然而,在人们购买笔记本电脑之前,往往只能通过店面营销人员的介绍、讲解,才对笔记本有一个大致的了解。而且大多数人记不住笔记本的各项参数;除此以外,通过搜索引擎查询某个品牌,得到的反馈信息,与自己的期望相差甚远。所以,人们十分迫切需要一个能够提供笔记本电脑各项性能参数的平台。   本文通过学习开源蜘蛛程序Heritrix和开源全文检索框架Lucene,依靠MyEclipse开发工具,为人们搭建了这个平台。Heritrix以其强大的抓取数据能力,正逐渐成为专业爬虫软件的首选,但由于Heritrix配置复杂,所以本文详细讲述了如何实现抓取网页数据,如何扩展Heritrix的各项功能组件,以实现对特定网站数据的抓取;为提高Heritrix的工作效率,本文还对Heritrix原有功能组件作了扩展,使其以多线程方式抓取网页数据,极大地提高了下载的效率。此外,本文通过对Lucene的研究,实现了品牌检索的功能,不仅如此,本文还考虑了Lucene基础排序算法在本系统中应用的不足,对其改进,改进算法时,借鉴了PageRank算法的思想,认真考虑了网页间的链接关系应该对网页间排序有很大的影响,并综合考虑了网页内容和网页间链接关系对结果页面排序的影响。最后,给出了改进后的排序公式并设置了合适的权重因子,实现了综合排序的功能,从而使改进后的排序更加客观、更加真实。   文章最后利用本文实现的系统平台,重点在两个方面作了测试对比:一方面是同当前大众使用的搜索引擎作了对比,对比测试说明本系统在查全率和查准率方面都具有很强的竞争力;另一方面对比了Lucene改进前后的排序算法,对结果页面排序的影响,测试的结果达到了预期的设想。  
其他文献
时间序列是指将某种现象某一个统计指标在不同时间上的数值按时间先后顺序形成的序列。由于真实系统或现象的内部通常会受到多种因素的影响,从而导致输出的时间序列具有许多
随着互联网的盛行,主流的在线社交媒体取得了突飞猛进的发展,而微博在这些在线社交媒体中表现出了更加突出的发展态势。微博已经吸引了海量的用户,人们在微博上分享自己的观
近些年来,随着计算机技术、网络技术、信息技术的高速发展以及电子产品成本的急速下降,企业的信息化得以空前的施展,信息化使得企业在发展过程中积累了不少数据。市场环境变
随着互联网技术的广泛发展,互联网已经成为目前世界上最大的信息资源库。在互联网信息空间中如何快速、准确、全面的找到自己想要的信息已经成为21世纪互联网技术的一大难题
随着多核计算机的日益普及,大规模科学与工程计算、事务处理与商业计算的需求,以及数据挖掘应用领域的不断扩大,基于多核平台的线性方程组数值求解算法和大数据量数值关联规
文本分类中特征选择的目的是通过从原始特征集合中去除分类无关特征和冗余特征,以减少文本特征向量维数,提高分类的效率和精度。传统文本特征选择方法通常引入特征之间的条件
遥感技术的发展,使我们能够获得极其丰富的信息,尤其是近几年来高分辨率遥感影像的出现更扩大了对自然界观察的视野。但是面临的挑战是如何处理和应用这些数据,使之能转变为急需被应用的信息。高分辨率遥感影像表现出地物更多的信息诸如光谱、形状、纹理以及上下文等。尽管卫星遥感数据分类技术有了长远的发展,但是对于高分辨率遥感影像来说,利用单一传统的分类方法不仅会导致分类精度降低,而且也会造成空间数据大量冗余、资源
数字图像处理方法的研究源于两个主要应用领域:其一是为了便于人们分析而对图像信息进行改进;其二是使机器自动理解识别而对图像数据进行存储、传输及显示。将分数阶微分用于
薄层色谱法(Thin-Layer Chromatography,简称TLC)具有设备和操作简单,展开时间短,检验灵敏度高等优点,是微量样品快速分离和定量分析的重要方法。在石油化工中,原油和有机抽
文本表示研究是自然语言处理领域基础的研究课题之一。词是文本中基本的语义单元,传统的词表示方法无法全面反映其所蕴含的语义信息,针对特定的自然语言处理任务,研究者们需