基于Lucene/Heep Client的垂直搜索引擎研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:tb881011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet发展的初始阶段,网络资源比较稀少,信息资源的查找比较容易。随着互联网的迅猛发展,Web中所容纳的信息量呈现指数级增长。面对海量的网络信息资源,如何快速高效地完成用户的搜索需求已成为通用搜索引擎瓶颈问题之一。同时,由于通用搜索引擎庞大的数据量和宽泛的主题,使其越来越无法满足用户对某一专题领域信息进行精确查找的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎便应运而生。  本文首先阐述垂直搜索引擎的概念、发展前景及特点,然后介绍了垂直搜索引擎的相关理论技术。本文所构建系统的数据源来自专利信息较全面的中国知网专利数据库。通过分析开源工具包HttpClient、开源框架Lucene的索引和检索机制,逐步完成计算机应用领域内专利信息网页数据的抓取、专利详细信息的抽取、并基于TFIDF进行  
其他文献
近十年来随着国内外大型光谱和测光巡天项目的相继开展,天文数据呈指数增长。如何从海量天文数据中挖掘出有益的信息或知识是天文研究者必须面对的挑战和任务。  本文的重点
从真实拍摄的图像中恢复出高精度的三维信息是计算机视觉领域的基本问题,有着广泛的应用价值。传统的基于全局优化的多视图立体匹配方法,由于算法复杂度和内存容量的限制,难
舌像诊断是中医最具临床应用价值的方法之一,随着计算机技术的迅速发展,舌诊克服以往主观性、非量化等缺点,形成自动化与客观化的诊断方式逐渐成为可能。本文即是舌诊自动化
近年来,随着计算机网络、移动终端设备以及应用集成和信息集成能力的发展,面向移动终端的新型信息传播方式愈加显得重要。论文结合国家科技部全国科技信息服务网络对多源信息
目前,对于Web应用程序的开发已经出现了很多基于SOA架构模式的开发方法。面向服务的体系结构(SOA,Service Oriented Architecture)是一种新型的软件体系结构,它具有高重用性
近年来,国际上大规模干涉阵设备的不断建造与深入运行,为人类探测未知宇宙的奥秘提供了丰富的观测资料,但随之而来的密集型数据实时处理问题,对传统的数据处理方法及IT技术提出了
学位
本文以中国科学院云南天文台手绘太阳黑子图手写信息数字化方法及将其应用于一个数字化系统为基础,从理论和实验两个方面开展工作。具体内容如下:  (1)提出基于最小二乘的圆
虚拟现实和仿真技术的发展为森林生态系统的深层次研究注入了新的活力,虚拟森林场景的模拟仿真是利用可视化技术将描述树木生理结构和生长过程的复杂数据直观形象地呈现出来,
随着人们对机器视觉的研究,该领域已从静态视觉系统发展到主动视觉系统。主动视觉系统模拟人的视觉的主动性,可根据任务要求和已有的处理结果,决定对感兴趣目标注视的部位、