基于Lucene的同义词扩展检索的研究与实现

被引量 : 5次 | 上传用户:jingjing2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的蓬勃发展和互联网的广泛普及,搜索引擎已成为人们工作、学习和生活的必备。当今很多搜索引擎都是基于关键词的检索,在索引中查找出与关键字相匹配的记录返回给用户。然而,由于每个用户的生活背景、知识程度、专业知识领域以及区域用词习惯都不尽相同,对同一概念的描述往往使用不同的词语,这些词往往是同义词,从而使用户搜索不到称心的答案。同时,我们常常遇到在不知具体关键字时进行检索的情况,检索的结果也不尽如人意。本文基于上述需求设计实现了同义词扩展检索机制。它将传统的检索机制进行改进,在建立索引的同时将词条的同义词嵌入索引中与原词条相同的位置,设置位置增量为0,即同义词和原词条享有相同的始末偏移量。执行检索时无论关键字是该词条还是该词条的同义词,都能直接命中该条记录,扩大了检索范围,解决了由于用词习惯和模糊检索带来的问题,为用户使用提供方便。而中文分词作为建立索引的核心,关系着分词的精确程度和搜索时的准确程度,也是同义词扩展检索赖以发展的基础。针对同义词扩展检索的需要,本文设计了基于三层哈希词典的正向最大匹配算法。词典的三层分别存储首字哈希值、词长和词条哈希值,下面的列表存储拥有相同哈希值的所有词条。同时在词条存储结构中加入双向链表的概念,分别指向该词条的下一个等义词或近义词,形成环状链表结构,各赋予不同的相关度值。这样就在一个词典中同时存储了中文和同义词两个词典,节约存储空间;由于哈希算法的特性,使查找词条的时间复杂度极小,节省查找时间。在Lucene2.0开源代码的基础上,结合新闻检索的需求设计实现了同义词扩展检索机制,并对其进行了大量语料的测试。实验结果表明,同义词扩展检索在不影响检索耗时的基础上较大程度的提高了查全率,为用户的检索提供便利。
其他文献
在生物教学中应用校园植物资源,能有效促进学生知识的获得、能力的提高、情感态度和价值观的形成。
随着新课改的推进,我国小学语文教学中更加重视对学生阅读能力的培养,与此同时,小学语文教学中的阅读状况越来越重要。在小学语文教学中,教师要不断加强和引导学生提高阅读能
随着我国经济社会的飞速发展,环境问题日益显现。环境问题成为摆在各国政府,尤其是发展中国家政府面前不能不考虑的问题。如果不解决好环境问题将影响我国经济的可持续发展和
<正>门诊治疗室是各种疾病患者进行集中治疗的场所,由于病种复杂、空气质量较差,容易造成交叉感染。为此,采取措施,加强门诊治疗室的管理,在预防交叉感染方面取得了显著成效
造成女性网络文学困境的原因主要是社会对媒体产业的操作规范和法律执行过程缺乏有力的监控机制;传统男权中心文化遗留比较严重;缺乏大众化网络文学批评;多数女性网络作者没
能源问题是当今世界各国关注的焦点问题。在经济全球化和区域经济集团化这一不可逆转的大趋势下,能源合作更是焦点中的焦点。东北亚作为能源合作必要性与可行性兼备却合作步
<正>自从西方工业革命后,科技发展日新月异,人类近百年的科学发明与技术进步是以往文明总和的几倍。尤其是人类社会进入网络时代后,我们所面临的新技术进步几乎应接不暇,而且
2004年10月25日至2005年10月18日,为配合满城县城西山花园小区建设工程,保定市文物管理所、满城县文物勘探队对工程涉及的古墓葬进行了抢救性发掘,其中东汉墓M9出土了较为丰
中国是一个发展中国家,也是一个大国。基于此,中国履行国际责任,应坚持量力而行、权责平衡和互利共赢的基本原则。它不仅仅只是维护既有国际秩序的稳定,也体现为致力于推动国
阿尔贝特·史怀泽(1875——1965),德国著名的哲学家、神学家、传教医生、音乐家,并于1954年在奥斯陆获得诺贝尔和平奖。他创造性地提出“敬畏生命”的理念思想,引发了伦理学