论文部分内容阅读
随着生物技术的发展,生物医学文献的数量急剧增加,例如:生物医学领域,最大、最权威的文献数据库(NCBI MEDLINE)包含1900多万篇文献,并以每月几万篇的速度增长,这使得生物医学研究者难以有效地获取所需的文献信息。因此,生物医学文献挖掘系统成为生物医学研究者必不可少的工具。而生物医学文献检索是最基础的文献挖掘,因此,提高生物医学文献检索系统的性能是一项重要的、基础的任务。
在生物医学文献中,基因、蛋白质、疾病等术语的表示不统一,例如:基因“prion protein”经常由“prnp、Prn-p、CD230、PrPL-P1-like、prion protein PrP”等多个变体表示,疾病“colorectal cancer”采用缩写词“CRC”表示等;生物医学研究者检索文献时所用的查询语言不统一;而大多数已存在的检索模型依赖于精确的术语匹配;这就引起了生物医学文献检索中查询与文献不匹配的问题,进而导致了检索性能的下降。
基于本体的查询扩展能够解决查询与文献不匹配的问题。本文综述了生物医学文献挖掘的研究成果和生物医学文献检索的最新进展,分析了基于Lucene的生物信息检索系统Lucegene。从基于本体的查询扩展角度入手,将生物医学领域最大的本体库(UMLS超级叙词表)以及UMLS的信息提取工具MetaMap引入到生物信息检索系统Lucegene中,从而提出了基于UMLS和Lucene的集成检索模型。本文采用Lucene检索框架,利用UMLS开发的信息提取算法MetaMap,集成实现了基于UMLS和Lucene的查询扩展检索系统。在此基础上,我们采用TREC2006 Genomics Track提供的公共数据集和评测标准对系统进行了测试,通过单个查询和多个查询的评估指标:查准率-召回率、查准率-文档数、系统的平均查准率,比较了Lucene检索系统和基于该模型的集成检索系统。仿真实验测试结果表明该模型提高了Lucegene检索系统在生物医学文献全文检索中的性能。