一种基于全文搜索引擎ElasticSearch的图书馆检索服务系统的研究

来源 :大众科学(周刊) | 被引量 : 0次 | 上传用户:csy355
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:图书馆信息资源丰富,如何方便、快速、准确的检索到所需的资源,一直是图书馆存在的难题。随着大数据技术的蓬勃发展,越来越多的大数据技术应用于图书馆管理服务中。本文就图书馆信息检索系统,提出以一种基于全文搜索引擎ElasticSearch(简称ES)技术进行重构的方案,以实现方便、快速、准确的在海量数据中检索信息的目标。
  关键词:图书馆;检索;ElasticSearch;分布式
  一.图书馆检索服务系统的现状及解决方式
  1、现状
  据了解,当前部分图书馆检索服务系统还是用的C/S(客户端/服务器)架构的系统。系统管理员需要在对外服务的电脑上安装相应的客户端软件,读者通过该客户端软件进行图书检索。这种检索系统主要采用的技术模式一般是以数据库为基础,利用数据库查询语句在数据表中进行查询得到结果。这种方式有两个弊端:一个是对关键字查询不准,只能提供模糊查询,这就造成图书馆明明有相关书籍,但是很难检索到;二是随着数据量的不断增加,数据库查询的效率会大幅度下降,体现出来就是耗时较长,甚至触发超时无结果返回[1]。
  2、解决方式
  就目前图书馆检索系统的现状,本文提出基于全文搜索引擎ES技术对图书馆检索服务系统进行重构的方案。
  二.检索服务系统技术概述
  全文搜索引擎ES技术是利用ETL工具将原有业务系统中的数据抽取、转换、加载到ES中。在此基础上使用ES技术构建图书馆全文搜索引擎,其具有开源、实时检索海量数据的特性并能通过引入成熟的中文分词算法IK提高搜索准确性[2]。
  1、ES概述
  ES是一个基于Apache Lucene的开源搜索引擎。ES是使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能的搜索引擎,它的目的是通过简单的RESTFul API来隐藏Lucene的复杂性,从而让全文搜索变得简单。其优点还表现为:支持分布式系统、实时搜索引擎、高可用性、可横向扩展。
  2、倒排索引
  ES将每个索引划分成多个分片,每个分片又分散到集群的不同服务器上。默认的,一个索引会创建5个主分片1个副本,共十个分片。
  实际上,一个分片是一个Lucene索引,一个包含倒排索引的文件目录,倒排索引的结果使得ES在不扫描全部文档的情况下,就能检索到哪些文档包含特定的关键字。一个索引由文档中的所有不重复的词条组成,对于每个词条都有一个包含它的文档列表。倒排列表记录了词条对应的文档集合,有倒排索引项组成。倒排索引项包括如下信息:
  文档ID:用于获取原始信息
  词条频率TF(Term Frequency):记录该词条在文档中出现的次数,用于后续相关性算法
  位置(Position):记录词条在文档中分词位置,用于做短语搜索
  偏移(Offset):记录词条在文档的开始和结束位置,用于做高亮显示。
  通过建立倒排索引,根据关键字很快能够定位到包含关键字的所有文档,而不用扫描全部文档。
  3、IK分词
  中文分词是对中文文档建立倒排索引的基础,不同于英文,中文句子中没有词的界限,因此在进行词条抽取的过程中需要进行分词。IK Analyzer是一个开源的基于Java语言开发的轻量级中文分词工具包。最初它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。
  4、ETL
  ETL是英文Extract-Transform-Load的缩写,用来描述将数据从源端经过抽取、转换、加载至目的端的过程。图书馆检索服务系统改造需要将原业务系统存储在关系型数据库中的数据通过ETL工具转移到ES中并生成索引库[3]。
  三、检索服务系统实现
  1、搭建ES集群
  根据系统架构设计,首先搭建ES集群。本系统首先使用3台服务器搭建系统,服务器配置为CPU(16核)、内存(256G)、硬盘(1T),服务器操作系统为Cent OS6.8。
  搭建过程:
  a)准备工作:配置各节点IP、节点名、hosts、关闭防火墙。
  b)每个节点安装jdk1.8.0,并配置好环境变量;
  c)新增用户es,因为启动ES不能用root,每个节点安装ES7.1.1,并修改配置文件elasticsearch.yml
  d)启动集群
  2、 数据迁移
  数据迁移使用开源ETL工具Kettle。这里Kettle部署到window系统的电脑上。
  部署过程:
  a)下载Kettle安装包
  b)安装jdk,并配置环境变量
  c)将安装包解压到任意目录,双击Spoon.bat启动配置转换过程,启动任务将关系型数据库数据迁移到ES中。
  3、Web检索模块
  Web检索模块即在ES集群上,用户通过输入关键字,或者选择搜索范围,模块通过解析将结果返回显示。Web检索模块采用BS架构,用户只要通过浏览器即可访问系统界面。用户通过“一框”式搜索框输入关键字,并点击搜索,模块会在所有倒排索引表中查找符合條件的表,在根据对应的词条id提取出对应的文档数据,并对文档中关键字进行高亮显示。
  四、结束语
  本文首先分析了当前图书馆信息检索系统的现状及问题,在深入研究了ES倒排索引的性能的基础上提出了基于ES全文索引技术的图书馆检索系统的研究。通过ES集群的搭建,使用kettle工具将业务系统数据导入ES集群建立索引库,并构建web检索模块,实现图书馆检索服务系统。系统具有准确性高、检索速度快、可靠性强的特点。不足之处是本系统目前还是测试研究阶段,未能在实际生产环境中应用,部分功能还需要进一步完善。
  参考文献:
  [1] 王志雄.浅谈图书馆信息检索服务的现状及优化策略[J].赤子,2019(05)
  [2] 张建中,黄艳飞,熊拥军.基于ElasticSearch的数字图书馆检索系统[J].计算机与现代化,2015(6)
  [3] 王伟,魏乐,刘文清,舒红平.基于Elasticsearch 的分布式全文搜索系统[J].电子科技2018(31)
其他文献
摘 要:图书馆的主要职能是为了让大量图书流动起来,方便不同的读者借阅查询,发挥图书的重要作用,而还书逾期对于图书馆的主要职能提出了挑战,本文首先分析了图书馆还书逾期的原因,并在此基础上提出了相应的解决策略。  关键词:图书馆;逾期;策略  一、图书馆还书逾期的原因  (一)读者角度分析  (1)读者对图书馆规章制度认识不全面  读者是借阅图书的主要使用人,很多时候读者很清楚自己在图书馆享有的权益,
期刊
摘 要:在农村电网中,电网维护费是我国改革农电体制以来为了规范农村电价管理,减轻农民群众电费负担的一种手段,使得农村电价透明度得以提高,是当前我国农村地区综合电价的重要组成内容。如何使用维护费用,使得农村低压电网不断优化升级是电力企业需要重点思考的问题。目前我国农村低压电网维护费使用过程中存在有多种问题,例如计提标准不一等,这些因素严重制约了农村电网的发展。基于此,本文主要内容探究了农村低压电网维
期刊
2017年以来,宁化林场围绕“品牌林场”这一发展战略目标,策划并编制了《杉木定株培育项目建设》森林资培育项目,建设规模总面积5000亩,建设期限5年,做到统筹规划、分步推进。  由于要林场立地条件较差,林地植被多为毛草、五节芒等到恶性杂草为主,同时现在造林采用不炼山,迹地上残留有采伐剩余物,杂灌、杂草等,采用人工锄草,则工效低、用工大、成本高采用适当的化学除草,则可以减少劳动力的投入,节约成本,避
期刊
摘 要:完善的运营策略是支撑园区发展的根本动力,天津国家动漫产业园作为唯一一个国家级动漫产业综合示范园,其运营策略存在的问题将制约园区发展,本文将找出问题并针对性提出运用策略改进措施,推动园区实现可持续发展。  关键词:天津国家动漫产业园;动漫产业园;运营策略  1 国家动漫园简介  天津国家动漫产业园是文化部确认的第一个也是目前唯一一个国家级动漫产业综合示范园区,根据查阅官方数据可知,园区自20
期刊
摘 要:本文就新企业会计制度“其他收益”科目的科目性质、核算内容、账务处理及在报表中如何列示等内容进行了研究探讨。  关键词:新企业会计制度“其他收益”科目;性质与内容;账务处理;报表列示  新企业会计制度新增了“6117其他收益”科目,主要核算反映计入其他收益的政府补助等,旧制度中政府补助等在“营业外收入”科目核算,财务人员在日常账务处理中应注意此项变化,现就该科目有关问题进行简单的探讨。  一
期刊
摘 要:现阶段,计算机网络信息安全问题频发,各企业纷纷开始建立计算机网络信息安全控制机制,以抵御来自内外界因素的影响,进而为企业发展营造良好的计算机网络信息安全环境。本文将系统分析计算机网络信息安全特点,并提出计算机网络信息安全控制机制构建策略以供参考。  关键词:计算机网络 信息安全 控制机制  1.引言  控制从管理学角度进行分析,它是管理工作的重要职能,主要涉及管理者、管理对象及管理手段三要
期刊
摘 要:随着高速公路建设工程的发展,工程中形成的档案也在迅猛增加。本文对于在高速公路建设工程中发展电子化档案管理系统的意义进行了简要分析,并据此提出了一些发展策略,如建立健全管理制度、更新软硬件、提升技术、增强管理人员综合素质等,为电子化档案管理系统的建立提供了一些发展思路。  关键词:B/S结构;文档对比;人机交互  引言:  高速公路建设工程中的纸质资料有着不便于管理、查找麻烦的缺点。为了解决
期刊
摘 要:云考勤系统在长久的发展与创新中,改变传统的指纹签到等生物识别签到方式,不再受地域的限制,特别针对在发展过程中出现的假冒签到的行为,保证云考勤系统的健康发展,云考勤系统将蓝牙指纹仪和移动设备进行有效的结合,并且借助云考勤系统的科学服务体系,保障云考勤系统的稳定发展。本文主要针对基于指纹识别的云考勤系统设计与实现进行系统的分析,研究结果仅供相关人士参考。  关键词:指纹识别;云考勤系统;设计;
期刊
摘 要:突发事件的爆发,会对我国及世界的社会经济造成严重的影响。根据2019年《中国互联网络发展状况统计报告》,我国网民规模达 8.54 亿,互联网普及率达 61.2%,手机网民规模达 8.47 亿,网民使用手机上网的比例达 99.1%。随着互联网的普及以及互联网用户行为具有的“不可预测、爆发式增长、峰谷明显”的特点,公众关注在特殊事件防控与舆情治理上占据着越来越重要的地位,正确引导舆情有利于有效
期刊
摘 要:随着经济的发展,企业更加关注自身的改革,对于人才的需求层次也逐渐升高,电力企业属于技术密集型企业,对于员工的技术要求较高,因此,应发挥人才评价在人力资源管理中的重要作用,选择合理的技术人员,并且对其综合素质以及能力进行评价,实现员工胜任能力评价与持证上岗工作两手抓、两促进,从而有效提升电力企业技术人员队伍的专业素质,实现信息化背景下企业的稳定发展。  关键词:电力企业;人才评价体系;建设 
期刊