基于LUCENE的全文搜索引擎的研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:quyeliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机软硬件和互联网技术的蓬勃发展,Web信息爆炸式地增长,人们愈来愈依靠网络搜索他们所需要的信息。但由于网络上的信息资源不计其数,网民如何在浩如烟海的知识海洋中去芜存菁、方便快捷地得到对他们更加准确、更加全面的检索结果,就成为了阻碍互联网发展的一个重要瓶颈。如果不对网页进行聚类处理,不但浪费了大量的存储资源、降低了索引的效率,而且还会增加用户检索和阅读的负担。因此网页聚类成为搜索引擎领域中的一个热点研究话题,并且广泛应用在信息检索领域和数据挖掘领域。网页的去重技术起源于复制检测技术,复制检测就是判断一个文件的内容是否是抄袭、剽窃或通过复制于另一个文件或者多个文件。而网页聚类是实现网页去重的一个重要方法。通过网页去重可以将网络中的信息进行聚类,可以将网络中的信息分成彼此间能够相互区分的类别。由于彼此间可以相互区分,所以在对海量网络信息进行检索时就可以通过检索这些彼此间相互区分的类别来解决,通过缩小检索的基数来提高检索的效率和检索结果的精度。本文主要进行的如下研究:首先本文简单介绍了搜索引擎的采集器、索引器、检索器、用户接口等关键技术的原理。通过分析开放源代码的全文检索引擎工具包LUCENE的特点、优势、研究现状、系统结构、检索机制等,将这些关键技术与LUCENE实际结合构建一个基于LUCENE的搜索引擎系统;接着,论述了网页去重的起源和网页去重的几种方法,通过对经典的K-means聚类算法的研究本文提出了一种树结构的聚类算法;然后对本文提出的树结构的网页聚类算法用Java语言实现,再对整个聚类程序进行测试、分析,通过实验数据分析本聚类算法的不足和优势;最后,将树结构的网页聚类算法嵌入到一个基于LUCENE的搜索引擎系统中,并对系统中的关键模块进行测试以确保系统的健壮性。通过已得到的实验数据可以证明本文提出的聚类算法和本文构建的搜索引擎系统已经达到预期的目标。
其他文献
结合成人教育的特点,提出基于CDIO的课程教学构架,指出应首先确定课程教学内容与知识体系并由此设计教学方案,从教学流程规划、课堂表达、算法演示、实验教学平台搭建、辅助
海水液压元件摩擦副材料的表面粗糙度、接触载荷、滑动速度等因素对其摩擦磨损性能具有重要影响,而各因素之间又存在着摩擦磨损交互作用。基于田口方法对PEEK/AISI 630摩擦副
新修订的公共安全行业标准《道路交通拥堵度评价方法》(GA/T 115-2020)于202年10月1日起实施。该标准规定了道路平面交叉口及区间路段交通拥堵度的评价指标、评价方法和相关
快速高效的气-液反应对生物物理学、化学和医学领域的发展具有十分重要的意义。微流控系统以其高传热传质效率和低物质消耗等优点为气-液反应提供了一个新的平台。介绍一种基
现有液压系统中液压阀种类多样、选型过程复杂且尚未实现数据流通和信息共享,阐述了基于数据库技术的液压阀信息管理系统的设计与实现过程。采用B/S架构模式、微软.NET平台、
《永别了,武器》是美国作家海明威的作品之一,该作品结合作者个人的战争经历,有着浓郁的自传色彩。在《永别了,武器》这部作品中,海明威为读者呈现了一个给年轻一代造成无法