搜索引擎关键技术研究及性能优化—基于Lucene的全文检索技术的研究与应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:hammil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文索引和检索是一种非常高效的信息检索技术,它极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。作为开源组织ApacheJakarta的成员项目,Lucene是一个成熟、自由、开源的软件项目,是一个高性能的、可扩展的信息检索工具库,可以方便快捷地融入到应用程序中以增加索引和搜索功能。 目前,Lucene的核心包和扩展包对中文分词采取类似英文的机械式切分方法。但是,由于中英文之间在形式上存在着巨大的差异,这种切分方法的分词效果是非常粗糙和低效的。在对包括中文分词技术在内的全文检索技术进行分析和研究的基础上,本文设计实现了一个基于词典的、采用正向最大匹配算法的中文分词模块。测试结果表明,与Lucene内核包采用的单汉字切分方法和其扩展包针对中日韩等亚洲语言采用的二元切分方法以及传统的基于词典的中文分词方法相比,该模块具有效果更好、性能更优的比较优势。 此外,信息检索的实践表明,由于自然语言中存在着大量的同义词、近义词,用户在检索的时候很难全部列举出表示同一概念的不同词汇表达形式,因而易造成漏检。本文实现了一种同义词检索的解决方案,提高了查全率。Lucene使用了倒排索引结构,查找效率高,节省空间。被索引的词条除文本值外,还有其所在的文档号,出现位置和出现频率等信息,在写入索引的过程中通过人为干预,将原词条的同义词插入语汇单元流的适当位置,并设置其位置信息,索引后的同义词在文档中的位置和原词条一致,可以达到检索包含输入词的同义词的记录的效果。本文在设计词典时加入了同义词的存储结构,事实证明具有较高的访问效率和容易维护的特点。 在应用方面,本文主要工作是专利著录项目检索系统的设计与实现。系统在文档数据加工、格式转换等相关工作的基础上,完成构建分词器、索引器、查询器、数据库存储设计等内容,最终实现了系统对中外文专利著录项目的检索、文摘信息浏览、全文说明书的查看和下载等功能。
其他文献
在智能化的背景下,手机、电脑、电视的功能趋于多元,如何充分利用各种智能终端的优势,实现智能终端间的互通互联与资源共享,正成为未来家庭娱乐发展的目标。多屏互动技术正是
随着近年来计算机技术的迅速发展和其在生活中的普遍应用,使得网络中存储了大量的数据。集值数据的典型来源有:超市的购物记录、web查询记录、患者医疗数据等。发布收集到的数
随着多媒体技术的迅速发展,互联网上每天都有大量的图像和视频在传播和分享。图像和视频的出现使我们的生活变得丰富多彩,但同时也带来了一系列的问题。例如,人们越来越喜欢
随着Internet的不断发展,作为半结构化语言的XML逐渐成为重要的数据载体,诸多应用和服务都采用XML作为数据传输对象,因此XML数据的安全性变得非常重要。在这种情况下,针对XML
随着信息管理技术的发展,现代社会已步入信息社会,信息量与日俱增。而与此相矛盾的是,在某一方面,信息量又显得非常匮乏,所掌握的信息也同时存在不完确定性和不完全性。为了
XML已经逐渐成为Internet上数据的表示标准和交换工具,但其较大数据冗余造成了存储空间的大量浪费,增加了搜索处理的的时间。目前,压缩是减小XML文档大小的一种行之有效的方
纹理合成是当前计算机视觉、计算机图形学、图像处理等多个领域的研究热点之一。目前纹理合成主要有过程纹理合成和基于样图的纹理合成,其中基于样图的纹理合成技术是近几年迅
学位
网格是一个动态开放的分布式计算环境,它将网络上的高性能计算机、大型数据库、远程设备、实验仪器设备等各种资源结合成一个巨大的计算平台实现资源共享和并行计算。网格环
信息社会的快速发展在改变人们获取信息的规模和方式的同时,也对信息检索领域的相关研究提出了新的要求。作为互联网上最流行的在线交流和信息发布平台,Web论坛在研究领域所
视频数据内容的版权保护,在计算机领域中常用的技术是数字水印和基于内容的视频拷贝检测技术。前者由于使用不便逐渐为后者所代替,基于内容的视频拷贝检测技术是将视频内容浓