基于相关词识别的数据库全文检索研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lbfjm78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的大量普及,各行各业的信息化进程也不断加快,各种信息化系统不断涌现。数据库作为应用系统的数据来源,随着这些信息系统的长期使用,数据库中的各种业务数据不断积累,如何从这大量的数据中快速找到需要的信息推动了我们对数据库全文检索的研究。针对上述需求,本文在信息系统中设计实现了数据库全文检索框架,在比较两种全文索引实现的优缺点后,基于开源搜索引擎lucene来创建索引和搜索索引,完成对数据库的全文检索。并用增量索引的方式对索引库进行维护。Lucene提供的对索引的搜索是针对关键词的精准搜索。但是由于生活中人们对同一事物的描述千差万别,所以这样的搜索就会导致结果不够全面。这需要检索系统自动识别用户的意图,能够全面合理的检索到用户希望看到的结果,这就对中文同义词的识别技术提出了更严格的要求。鉴于上述问题,本文深入研究了同义词识别的相关算法,利用数据库中已有的大量数据改进同义词识别的算法应用于大数据中提取相关词,借此构造应用于本系统的相关词词库。在此相关词词库的基础上,在数据库全文检索框架中加入对相关词的识别,并针对在加入相关词后的检索结果排序问题对lucene自带的排序算法做了改进,把相关词和关键词对结果的影响的重要度区分开来。实验结果表明,这种方法扩展了搜索结果,提高了检索系统的查全率。目前国内对中文同义词识别方面的研究才刚刚开始,在搜索引擎中的应用也不能尽如人意。本文以高校信息管理系统的应用为背景,以学科相关词的识别为目的,参考同义词识别方面的相关算法思想,结合lucene构建了一个支持相关词识别的数据库全文检索模型,改进同义词识别方法应用于相关词词库的构造中,从学科门类中基于概念树的语义相似度算法计算概念问的相似度,根据相似度的大小来确定相关词,另一方面,从现有的论文数据中基于统计的相关思想提取相关词。通过相关词词库的构造,把相关词的识别应用于全文检索中。在基于向量空间模型的基础上,把关键词对结果的影响大小用相关度的概念来描述,设计了合理的结果排序方法。
其他文献
多核/众核网络化计算、低能耗绿色计算、高可信计算等计算模式的出现,对嵌入式实时系统带来了新的研究需求与挑战。随着嵌入式系统应用领域的不断深化和芯片集成度的日益提高
近年来,国内移动互联网强势发展,智能手机迅速普及,人类已经进入了移动互联网时代,利用移动终端接入互联网进行信息交互,演变成为信息时代的一种新的生活方式。2014年中国互联网络
近年来,嵌入式计算、无线通信网络和分布式信息处理等技术快速发展,各种新技术得到广泛应用;而现实的应用需求也为人们不断设计出新的技术规范提供了动力。ZigBee作为无线通信
几何造型是CAD系统的核心.参数曲线曲面一直以来都是描述几何形状的主要工具,其中,参数化和曲面拼接是CAD中曲线曲面造型的基础问题.作为本文的部分内容,我们研究了Bezier曲
现代通信技术的高速发展以及移动智能终端的普及,使得人们对电信业务质量的要求越来越高,电信运营商可以通过提升业务质量来赢得用户资源,业务的用户体验是制定高效提升业务
视频图像序列中的目标跟踪是计算机视觉领域中的核心研究课题之一,最近几十年来受到了学者们的广泛关注。目标跟踪技术为更高层的视频理解和场景解释提供底层对象和分析依据,
随着语义网技术的不断成熟,网络资源环境向智能化、语义化和结构化方向发展。当前的网络资源环境中的信息多数是以人能够理解的形式呈现的,缺乏被计算机理解和处理的基本形式,阻
随着网络信息技术的飞速发展,今天,信息在社会生活中扮演着越来越重要的角色。各行各业都需要从海量的数据中搜索对自身有用的信息来以满足发展。但这样有很大的可能导致个体
生物分子事件就是生物分子的具体行为。在生物事件抽取过程中,需要识别每一个生物事件的文本触发词、事件类型和事件要素。在生物医学领域,一个事件可以是另一事件的要素,从
睡眠对人体健康起着重要的作用。睡眠不足会导致白天疲劳和注意力不集中。除了睡眠时长外,睡眠质量也是维持健康的一个重要因素。临床研究表明,睡眠与许多严重的疾病有关,包