基于Lucene的生物医学文献检索系统的研究与改进

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:bell900818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物技术的发展,生物医学文献的数量急剧增加,例如:生物医学领域,最大、最权威的文献数据库(NCBI MEDLINE)包含1900多万篇文献,并以每月几万篇的速度增长,这使得生物医学研究者难以有效地获取所需的文献信息。因此,生物医学文献挖掘系统成为生物医学研究者必不可少的工具。而生物医学文献检索是最基础的文献挖掘,因此,提高生物医学文献检索系统的性能是一项重要的、基础的任务。   在生物医学文献中,基因、蛋白质、疾病等术语的表示不统一,例如:基因“prion protein”经常由“prnp、Prn-p、CD230、PrPL-P1-like、prion protein PrP”等多个变体表示,疾病“colorectal cancer”采用缩写词“CRC”表示等;生物医学研究者检索文献时所用的查询语言不统一;而大多数已存在的检索模型依赖于精确的术语匹配;这就引起了生物医学文献检索中查询与文献不匹配的问题,进而导致了检索性能的下降。   基于本体的查询扩展能够解决查询与文献不匹配的问题。本文综述了生物医学文献挖掘的研究成果和生物医学文献检索的最新进展,分析了基于Lucene的生物信息检索系统Lucegene。从基于本体的查询扩展角度入手,将生物医学领域最大的本体库(UMLS超级叙词表)以及UMLS的信息提取工具MetaMap引入到生物信息检索系统Lucegene中,从而提出了基于UMLS和Lucene的集成检索模型。本文采用Lucene检索框架,利用UMLS开发的信息提取算法MetaMap,集成实现了基于UMLS和Lucene的查询扩展检索系统。在此基础上,我们采用TREC2006 Genomics Track提供的公共数据集和评测标准对系统进行了测试,通过单个查询和多个查询的评估指标:查准率-召回率、查准率-文档数、系统的平均查准率,比较了Lucene检索系统和基于该模型的集成检索系统。仿真实验测试结果表明该模型提高了Lucegene检索系统在生物医学文献全文检索中的性能。  
其他文献
根据Photoshop教学的实际,采用传统的教师讲学生练的教学方法,无法收到满意的教学效果,而引入任务驱动教学法,围绕任务展开学习,以任务的完成结果检验和总结学习过程,提高了
这天,我到县委参加一个投票推举干部的会,上级组织部门的领导坐在上面说:“因为我们要选的是群众公认的干部,所以今天请大家来投票。”在台下,我左顾右盼,从主席台 On this
人脸渐变技术作为计算机动画领域的一个重要实用技术,可以广泛应用于电影制作、游戏娱乐和广告制作等领域。人脸渐变技术是人脸特征定义及获取技术、图像变形技术和渐变中间
存储已成为以数据为中心的信息时代核心之一。数据存储已成为互联网热潮之后的又一次新的技术浪潮,它将网络带入了以数据为中心的时代。基于P2P的分布式存储系统通过把闲散的
随着我国民航信息化的发展,旅客人次和航班数量的不断增加,民航信息数据呈现出爆炸式增长的趋势,与此相对的是我国民航面向公众、全行业单位与部门的数据共享和信息服务不适
计算机教育教学是高职高专院校教学的一个重要组成部分,实施计算机教育教学的模式、方法对培养学生实践能力、创新思维、科研能力有着重要意义.本文重点分析了当前计算机教育
中文分词是计算机进行汉语文本分析的关键技术,分词算法的好坏直接影响中文分析系统的实用性,搜索引擎是中文分词技术的重要应用之一。如何用更短的时间得到更高的分词精确度
随着嵌入式系统性能的提高以及流媒体业务的发展,嵌入式流媒体业务也在各个领域中蓬勃发展。现代网络技术的发展使得网络应用更加普及,各种基于网络的应用不再拘泥于有限的带宽
随着移动互联网的兴起,位置信息的价值也愈发突显,利用海量位置数据分析用户的行为,解释人们的活动规律,挖掘顾客的潜在价值越来越受到人们的关注。得益于卫星定位和测绘技术的发
自从互联网诞生以来,网络安全问题一直是不容小觑的问题,特别是入侵检测领域,也一直是研究者们研究的热点。现如今攻击者的攻击手段日益的隐蔽,复杂,网络安全设备所产生的告