基于Lucene的生物医学文献检索系统的研究与改进

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户：bell900818

【摘要】

：

随着生物技术的发展，生物医学文献的数量急剧增加，例如：生物医学领域，最大、最权威的文献数据库(NCBI MEDLINE)包含1900多万篇文献，并以每月几万篇的速度增长，这使得生物医学研究者

【作者】

：

赵沛沛

【机构】

：

重庆邮电大学

【出处】

：

重庆邮电大学

【发表日期】

：

2010年期

【关键词】

：

生物医学文献检索系统查询扩展全文检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着生物技术的发展，生物医学文献的数量急剧增加，例如：生物医学领域，最大、最权威的文献数据库(NCBI MEDLINE)包含1900多万篇文献，并以每月几万篇的速度增长，这使得生物医学研究者难以有效地获取所需的文献信息。因此，生物医学文献挖掘系统成为生物医学研究者必不可少的工具。而生物医学文献检索是最基础的文献挖掘，因此，提高生物医学文献检索系统的性能是一项重要的、基础的任务。　　在生物医学文献中，基因、蛋白质、疾病等术语的表示不统一，例如：基因“prion protein”经常由“prnp、Prn-p、CD230、PrPL-P1-like、prion protein PrP”等多个变体表示，疾病“colorectal cancer”采用缩写词“CRC”表示等；生物医学研究者检索文献时所用的查询语言不统一；而大多数已存在的检索模型依赖于精确的术语匹配；这就引起了生物医学文献检索中查询与文献不匹配的问题，进而导致了检索性能的下降。　　基于本体的查询扩展能够解决查询与文献不匹配的问题。本文综述了生物医学文献挖掘的研究成果和生物医学文献检索的最新进展，分析了基于Lucene的生物信息检索系统Lucegene。从基于本体的查询扩展角度入手，将生物医学领域最大的本体库(UMLS超级叙词表)以及UMLS的信息提取工具MetaMap引入到生物信息检索系统Lucegene中，从而提出了基于UMLS和Lucene的集成检索模型。本文采用Lucene检索框架，利用UMLS开发的信息提取算法MetaMap，集成实现了基于UMLS和Lucene的查询扩展检索系统。在此基础上，我们采用TREC2006 Genomics Track提供的公共数据集和评测标准对系统进行了测试，通过单个查询和多个查询的评估指标：查准率-召回率、查准率-文档数、系统的平均查准率，比较了Lucene检索系统和基于该模型的集成检索系统。仿真实验测试结果表明该模型提高了Lucegene检索系统在生物医学文献全文检索中的性能。　　

其他文献

基于改进的MR-ASM的彩色人脸图像渐变研究

人脸渐变技术作为计算机动画领域的一个重要实用技术,可以广泛应用于电影制作、游戏娱乐和广告制作等领域。人脸渐变技术是人脸特征定义及获取技术、图像变形技术和渐变中间

学位

多分辨率活动形状模型人脸特征定位图像变形人脸渐变图像渐变人脸图像渐变渐变动画自动渐变

基于P2P的分布式存储系统可靠性及故障检测研究

存储已成为以数据为中心的信息时代核心之一。数据存储已成为互联网热潮之后的又一次新的技术浪潮，它将网络带入了以数据为中心的时代。基于P2P的分布式存储系统通过把闲散的

学位

分布式存储系统P2P网络故障检测覆盖网络半结构化超级结点

民航公众信息服务平台中基于BPEL的动态服务组合研究与实现

随着我国民航信息化的发展,旅客人次和航班数量的不断增加,民航信息数据呈现出爆炸式增长的趋势,与此相对的是我国民航面向公众、全行业单位与部门的数据共享和信息服务不适

学位

民航信息服务Web服务组合BPEL动态调整服务匹配二部图

中文分词技术在搜索引擎中的研究与应用

中文分词是计算机进行汉语文本分析的关键技术,分词算法的好坏直接影响中文分析系统的实用性,搜索引擎是中文分词技术的重要应用之一。如何用更短的时间得到更高的分词精确度

学位

中文分词搜索引擎Lucene最大匹配算法双字哈希歧义处理

嵌入式流媒体中间件的研究

随着嵌入式系统性能的提高以及流媒体业务的发展，嵌入式流媒体业务也在各个领域中蓬勃发展。现代网络技术的发展使得网络应用更加普及，各种基于网络的应用不再拘泥于有限的带宽

学位

嵌入式系统流媒体中间件技术

面向室内空间的语义轨迹提取方法研究

随着移动互联网的兴起，位置信息的价值也愈发突显，利用海量位置数据分析用户的行为，解释人们的活动规律，挖掘顾客的潜在价值越来越受到人们的关注。得益于卫星定位和测绘技术的发

学位

室内定位语义轨迹提取算法数据挖掘室内空间

基于入侵检测的数据处理分析关键算法研究

自从互联网诞生以来,网络安全问题一直是不容小觑的问题,特别是入侵检测领域,也一直是研究者们研究的热点。现如今攻击者的攻击手段日益的隐蔽,复杂,网络安全设备所产生的告

学位

SVM告警聚合攻击行为序列攻击场景最大序列模式

基于Lucene的生物医学文献检索系统的研究与改进

其他学术论文