基于相关词识别的数据库全文检索研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：lbfjm78

【摘要】

：

随着计算机的大量普及,各行各业的信息化进程也不断加快,各种信息化系统不断涌现。数据库作为应用系统的数据来源,随着这些信息系统的长期使用,数据库中的各种业务数据不断积

【作者】

：

高配芝

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2014年期

【关键词】

：

相关词识别数据库全文检索 lucene 相关词搜索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机的大量普及,各行各业的信息化进程也不断加快,各种信息化系统不断涌现。数据库作为应用系统的数据来源,随着这些信息系统的长期使用,数据库中的各种业务数据不断积累,如何从这大量的数据中快速找到需要的信息推动了我们对数据库全文检索的研究。针对上述需求,本文在信息系统中设计实现了数据库全文检索框架,在比较两种全文索引实现的优缺点后,基于开源搜索引擎lucene来创建索引和搜索索引,完成对数据库的全文检索。并用增量索引的方式对索引库进行维护。Lucene提供的对索引的搜索是针对关键词的精准搜索。但是由于生活中人们对同一事物的描述千差万别,所以这样的搜索就会导致结果不够全面。这需要检索系统自动识别用户的意图,能够全面合理的检索到用户希望看到的结果,这就对中文同义词的识别技术提出了更严格的要求。鉴于上述问题,本文深入研究了同义词识别的相关算法,利用数据库中已有的大量数据改进同义词识别的算法应用于大数据中提取相关词,借此构造应用于本系统的相关词词库。在此相关词词库的基础上,在数据库全文检索框架中加入对相关词的识别,并针对在加入相关词后的检索结果排序问题对lucene自带的排序算法做了改进,把相关词和关键词对结果的影响的重要度区分开来。实验结果表明,这种方法扩展了搜索结果,提高了检索系统的查全率。目前国内对中文同义词识别方面的研究才刚刚开始,在搜索引擎中的应用也不能尽如人意。本文以高校信息管理系统的应用为背景,以学科相关词的识别为目的,参考同义词识别方面的相关算法思想,结合lucene构建了一个支持相关词识别的数据库全文检索模型,改进同义词识别方法应用于相关词词库的构造中,从学科门类中基于概念树的语义相似度算法计算概念问的相似度,根据相似度的大小来确定相关词,另一方面,从现有的论文数据中基于统计的相关思想提取相关词。通过相关词词库的构造,把相关词的识别应用于全文检索中。在基于向量空间模型的基础上,把关键词对结果的影响大小用相关度的概念来描述,设计了合理的结果排序方法。

其他文献

嵌入式实时系统节能与可靠性优化算法研究

多核/众核网络化计算、低能耗绿色计算、高可信计算等计算模式的出现,对嵌入式实时系统带来了新的研究需求与挑战。随着嵌入式系统应用领域的不断深化和芯片集成度的日益提高

学位

嵌入式实时系统可靠性节能设计容错调度电压分配

模糊贝叶斯网络在电信客户流失分析中研究与应用

近年来，国内移动互联网强势发展，智能手机迅速普及，人类已经进入了移动互联网时代，利用移动终端接入互联网进行信息交互，演变成为信息时代的一种新的生活方式。2014年中国互联网络

学位

电信业务客户流失现象数据分析贝叶斯网络结构学习模糊理论隶属度函数

基于ZigBee的无线网络组网及可靠性研究

近年来,嵌入式计算、无线通信网络和分布式信息处理等技术快速发展,各种新技术得到广泛应用；而现实的应用需求也为人们不断设计出新的技术规范提供了动力。ZigBee作为无线通信

学位

ZigBee无线网络组网可靠性Z-StackCC2530

CAD/CAE中样条曲线曲面的研究

几何造型是CAD系统的核心.参数曲线曲面一直以来都是描述几何形状的主要工具,其中,参数化和曲面拼接是CAD中曲线曲面造型的基础问题.作为本文的部分内容,我们研究了Bezier曲

学位

B样条Bezier曲线重新参数化半结构B样条曲面拼接G2连续等几何分析配点法收敛性一致性非均匀有理B样条最小二乘法

基于支持向量机和决策树的电信通信数据分析与应用

现代通信技术的高速发展以及移动智能终端的普及,使得人们对电信业务质量的要求越来越高,电信运营商可以通过提升业务质量来赢得用户资源,业务的用户体验是制定高效提升业务

学位

决策树支持向量机相异度哈夫曼树测量报告接收信号质量接收信号电平

基于Mean Shift的视频目标跟踪算法的研究与改进

视频图像序列中的目标跟踪是计算机视觉领域中的核心研究课题之一,最近几十年来受到了学者们的广泛关注。目标跟踪技术为更高层的视频理解和场景解释提供底层对象和分析依据,

学位

目标跟踪均值漂移核窗宽尺度自适应背景加权颜色概率图

基于关联数据语义相似度计算研究

随着语义网技术的不断成熟，网络资源环境向智能化、语义化和结构化方向发展。当前的网络资源环境中的信息多数是以人能够理解的形式呈现的，缺乏被计算机理解和处理的基本形式，阻

学位

语义网关联数据知识发现语义相似度实例属性动态权值

针对K-匿名数据的top-k查询问题研究

随着网络信息技术的飞速发展,今天,信息在社会生活中扮演着越来越重要的角色。各行各业都需要从海量的数据中搜索对自身有用的信息来以满足发展。但这样有很大的可能导致个体

学位

键词K-匿名数据计算复杂度偏序排序Top-k查询剪枝

基于双分解的生物事件抽取

生物分子事件就是生物分子的具体行为。在生物事件抽取过程中,需要识别每一个生物事件的文本触发词、事件类型和事件要素。在生物医学领域,一个事件可以是另一事件的要素,从

学位

生物事件抽取词向量双分解在线算法

基于声音和心电信号的睡眠监测方法的研究

睡眠对人体健康起着重要的作用。睡眠不足会导致白天疲劳和注意力不集中。除了睡眠时长外,睡眠质量也是维持健康的一个重要因素。临床研究表明,睡眠与许多严重的疾病有关,包

学位

睡眠监测阻塞性呼吸暂停多分类支持向量机随机森林

基于相关词识别的数据库全文检索研究

其他学术论文